李世石神之一手!三連敗後扳回一城
端傳媒
2016-03-14 14:33

「人機對弈」第四局戰況:

 

3月13日中午12時,南韓圍棋九段棋手李世石與Google人工智慧程式 AlphaGo 之間的「人機對弈」展開第四局,在近五個小時的激戰之後,李世石最終扳回一局,取得首勝。

 

在12日第三局落敗後,李世石稱AlphaGo的程式雖然表現驚人,但也展現出弱點。而外界也期望李世石能在餘下兩局為人腦掙回一些面子。

 

「這只是我李世石個人輸掉了,並不是全人類。雖然AlphaGo的程式相當驚人,但畢竟還未達到完美的境界。」南韓圍棋九段棋手李世石於第三局落敗後說。

 

出戰第四局時,李世石進場時神情較前幾天輕鬆。但在對弈開始後,手執白子的李世石不斷陷入長時間思考,而且逐漸落入下風。

 

戰至中盤,AlphaGo的思考時間比李世石足足用少近1小時,一些直播評論甚至認為已經看不到李世石有逆轉的希望。眼看李世石即將進入每一手必須在60秒內落子的「讀秒」階段,令形勢更加不利,但他卻妙招頻出,尤其於第78手下了一子妙棋,成功令僵局現出生機,並能逐步串連起佔據棋盤各處的白子。有職業棋手形容李世石下出「神之一手」,甚至猜測李世石是否已經看穿AlphaGo的行棋弱點,故意在布局階段布下誘敵之陣。

 

李世石逆轉形勢後,在右方發動攻勢,AlphaGo開始計算應對辦法。然而,AlphaGo一度看似想在右方「提劫」,卻沒有成功,反而跑出「死子」。

 

有職業棋手判斷,李世石下出AlphaGo計算以外的變化,讓程式出現混亂,甚至笑言程式可能發生故障。現場評論指,就連 AlphaGo 開發者之一、連日來代其走子的黃士傑看到AlphaGo在右方下子招式時也面露困惑。

 

結果李世石成功在右方「收氣」,穩住一大片形勢。戰至這個階段,AlphaGo 每下一手平均都要思考3分鐘以上。職業棋手們判斷 AlphaGo 已無法扭轉劣勢,勝負已分。而李世石在「收官」階段,仍然小心翼翼,沒有出現失誤。

 

最終,AlphaGo投子認輸,李世石獲得首勝。這也是AlphaGo自去年十月以5:0戰勝歐洲圍棋冠軍樊麾後,首次在對奕中向人類「投降」。

 

這場「人機對弈」的最後一局,將於3月15日中午12點進行。

 

3月12日更新:「人機對弈」第三局戰況

 

3月12日中午12時,南韓圍棋九段棋手李世石與 Google 人工智慧程式 AlphaGo 之間的「人機對弈」三度開戰,結果 AlphaGo 再次擊敗李世石,以總比分 3:0 成為此次對弈中的勝方。

 

賽前,已經落後兩局的李世石顯得有點緊張,不像之前一樣牽著女兒、而是獨自一人進場。棋局甫開,執黑子先行的李世石嘗試搶攻,但很快被AlphaGo牽制住,而AlphaGo主動在左上角佔地,讓李世石只能忙於突圍,避免在布局階段落後太多。

 

戰至中盤,一些直播此次對弈的職業棋手已經認為李世石難以逆轉,棋局勝敗已分。但李世石一度下子進取,嘗試攻殺 AlphaGo 布置在左面的白子「大龍」,而AlphaGo卻沒有即時回應;職業棋手們此前看過 AlphaGo 異於人類的下棋方式,都不敢判斷它是沒有意識到黑子的意圖,而估計它是經過精密計算,不覺得白子「大龍」有危險。結果,AlphaGo 不但於右路另開戰局,亦成功應對了李世石在左路的進攻。

 

棋局較後階段,評論普遍認為局面此局李世石必敗,但李世石不斷嘗試造出「打劫」,並測試 AlphaGo 尋找「劫材」、應對「打劫」的能力。此前兩局,一直沒有出現「劫爭」,也令外界猜測「劫爭」是否 AlphaGo 的弱項,甚至該程式根本不懂「提劫」。亦有人質疑,此次比賽是否預先定下對李世石不利的「不能打劫的保密協議」。不過,AlphaGo 開發團隊成員、代 AlphaGo 下子的黃士傑早前已發電郵澄清,雙方沒有定下這種保密協議;而在第三局上,AlphaGo 亦首次「提劫」,打破外界猜測。

 

最終,李世石無法扭轉戰局,於第176手投子認輸。

 

儘管AlphaGo在這場五局三勝制的「人機對弈」已經獲勝,但雙方還是會繼續完成餘下兩局,李世石仍有機會贏得一局。

 

「這次比賽不論勝敗如何,我覺得我們都應該尊重李世石九段,他接受AlphaGo的挑戰,所承受的壓力一定很大。」AlphaGo開發團隊成員、代AlphaGo下子的黃士傑。

 

綜觀過去三局,AlphaGo不時擺出「怪招」,某些起初看來似是失誤,但最終被證明是致勝的關鍵,令職業棋手們驚訝。

 

韓國棋院秘書長梁宰豪形容,AlphaGo「就像是在山中自學成材的棋手」,看起來不像高手,每步下子亦無甚創意,但整局看來處處打破常規。他說,學棋者看了AlphaGo的獨特下法後,將能開闊視野。

 

「圍棋是有著4千年歷史的古典遊戲,經歷了漫長的發展過程,正如科學通過實證檢驗不斷開拓新境界,人工智慧也將為圍棋拓展新空間帶來積極影響。」南韓九段棋手趙惠連表示。

 

南韓九段棋手趙惠連指,AlphaGo將改寫圍棋歷史,包括圍棋的範式和學習方式,重新定義何謂圍棋。

 

她說,人類和AlphaGo看待圍棋的方式截然不同,人類傾向以較大目數贏棋,但 AlphaGo 的目標就只有贏棋,即使只贏半目。而人腦不能像電腦一樣百分百精確無誤地計算,因此職業棋手無法像 AlphaGo 一樣下棋,「但人能做的,是更豐富地研究圍棋」。

 

3月10日更新:「人機對弈」第二局戰況

 

「人機對弈」第二局完結, AlphaGo 再次獲勝。Google Deepmind Youtube截圖

 

 

 

3月10日中午12時,南韓圍棋九段棋手李世石與 Google 旗下 Deepmind 公司人工智慧程式AlphaGo之間的「人機對弈」再度開戰。在經過4個半小時的鏖戰後,李世石再度落敗,以總比分 0:2 落後於 AlphaGo。

 

首戰告捷的AlphaGo在第二場比賽中執黑先行,繼續保持「犀利」棋風,李世石則比首局落子更為謹慎。在本局比賽的前半段,AlphaGo在局面上佔據優勢。中國「棋聖」聶衛平表示,對AlphaGo的下法「脱帽致敬」;為 Deepmind擔任直播評論的美國棋手、亦是世界上唯一一位非東亞裔的圍棋九段Michael Redmond甚至表示,AlphaGo第37手有圍棋宗師吳清源的風範。

 

比賽後段,落子較慢的李世石陷入「時間危機」,他在用完雙方各2小時的保留時間、進入「讀秒」階段時,AlphaGo 還有約20分鐘。這意味着李世石接下來每一手必須在60秒內落子,若違反3次就會因超時被判負。李世石雖然頑強地將 AlphaGo 也拖入「讀秒」,但不久之後便投子認負。

 

「就算AlphaGo戰勝了李世石,但它贏不了我。」3月9日,中國棋手柯潔表示。

 

李世石雖然是本世紀獲得冠軍次數最多的棋手,但並非目前的世界第一,現世界圍棋等級分排名第一的是年僅18歲的中國棋手柯潔。李世石首戰告負後,柯潔立即在其個人微博表示,雖然AlphaGo戰勝了李世石,「但它贏不了我」。

 

柯潔的言論引來不少網友批評及調侃。有網友稱,「AlphaGo當然贏不了你,因為如果在中國比賽,它會因為防火墻而連不上Google的服務器。」

 

不過,柯潔9日接受新華社採訪時表示,對李世石的首場失利「震驚得説不出話」,AlphaGo 的「實力遠超想象」,「下法簡明自然,整個思路非常清晰」,「看它下棋特別像人類的思維模式,而且計算能力很精準,越到後面越精準,失誤越少」。

 

柯潔認為李世石現在最關鍵是要調整好心態,並認為他自己與人工智慧「早晚會有一戰」,而且「還是相信自己會贏」。

 

3月9日第一局:谷歌人工智慧對弈圍棋世界冠軍:AlphaGo 首戰告捷!

 

3月9日,曾18次獲得圍棋世界冠軍的南韓圍棋九段棋手李世石與Google旗下Deepmind公司研發的人工智慧程式 AlphaGo在首爾四季酒店開始對弈,結果第一局由 AlphaGo 勝出,之後四局將於10日至15日分別舉行,Deepmind的YouTube頻道均會進行現場直播。

 

這場被譽為「人機對決」的圍棋比賽將以五局三勝制進行。雙方按此前約定,採用中國規則、黑貼3又3/4子。即使一方首先取得三勝,也會全部下完五局,而最終勝方可獲得100萬美元奬金;假如勝方全勝5局,更可額外多獲25萬美元奬金。

 

 

李世石與AlphaGo首戰結束時的棋局。DeepMind直播影片截圖

 

首局對奕歷時近4個小時。開局時,AlphaGo下子小心翼翼,但進入中局,明顯變得進取,甚至棋行險著。為 Deepmind 擔任直播評論的九段棋手Michael Redmond指 ,AlphaGo相比去年10月攻敗歐洲圍棋冠軍樊麾時,技術又有明顯進步,犯錯更少。

 

有分析指,由於人工智能的表現比較穩定,第一局已能反映其到能到達的水準,因此透過第一局的勝負已大概能預測到最終戰果。

 

「我相信這不會是一場旗鼓相當的比賽,估計(最後比分)是5-0或4-1。對我來說,關鍵是一場都不會輸……同機器比賽跟人類有很大差異,假如對手是人,你會感受到對方的呼吸、精神,很多時你會基於一些身體反應而做決定,但對手是機器就沒有這些參考了。」南韓圍棋九段棋手李世石在賽前說。

 

李世石現年33歲,是當今世界三大圍棋高手之一,出道之初以棋風銳利、擅長大規模攻殺見稱。近年他的棋風更加成熟,在多次世界圍棋大賽中,他均在開始落後的情況下最終逆轉勝出。

 

李世石的對手是Google旗下Deepmind 公司研發的人工智能程式AlphaGo。去年10月, AlphaGo曾以5局全勢的姿態,擊敗3屆歐洲圍棋冠軍、二段棋手樊麾。

 

《自然》雜誌於今年1月刊登的文章解釋,AlphaGo在蒙地卡羅樹搜索中同時採用2個深度神經網絡,分別是選擇下子的策略神經網絡(Policy Network)及評估選點的價值神經網絡(Value Network);前者負責計算每步棋的走法,後者則負責「想像」、推算可能出現的局面,讓AlphaGo 能高度模擬人腦在下圍棋時憑直覺快速鎖定策略的思維邏輯。此外,工程師們為Alpha上載了圍棋高手們超過 3000 萬步的棋步,並讓價值神經網絡進行了高達2000萬次自我對局的訓練,最終才讓AlphaGo走上比賽桌。

 

本文獲端傳媒授權轉載