- AlphaGo六十連勝對局解析
- 江鑄久 芮乃偉
- 2955字
- 2019-09-12 14:50:09
來自未來的AlphaGo——第二次人機(jī)大戰(zhàn)有感
在不遠(yuǎn)的將來,基因分析師以及分析基因數(shù)據(jù)的軟件會變得熱門,遺傳學(xué)會進(jìn)入醫(yī)療保健領(lǐng)域……你的病就像你的個性一樣,獨(dú)一無二,并且被單獨(dú)對待。
20世紀(jì)90年代初,我剛到美國時(shí)就接觸了圍棋人工智能。我和開發(fā)它們的工程師們每年會見幾次,給他們出出主意、提點(diǎn)建議。那個時(shí)候的人工智能有點(diǎn)像牛車,緩慢而堅(jiān)定地前行著,雖然可以清楚地看到它們的進(jìn)步,但是感覺還是離我們很遠(yuǎn)很遠(yuǎn)。
大約10年前,我到加拿大班夫參加了一個數(shù)學(xué)家與IT人士的國際性年會。參加會議的都是這方面的專家,只有我一個人是純粹的棋手。目前世界上有大約6 000種智力游戲(包括所有的棋類、牌類,還有許許多多我們想也想不到的),但是,只有圍棋,還堅(jiān)守著人類的防線,其他的都已經(jīng)完全被計(jì)算機(jī)攻克了。我親眼看到有人拿來一種新發(fā)明的游戲,只需一夜的時(shí)間,就一定會有人寫出破譯的程序。到了第二天,人就玩不過計(jì)算機(jī)了。但是大家都在感慨,圍棋太難了,太多變化了,計(jì)算機(jī)算不過來啊!那時(shí),我真為我們老祖宗的發(fā)明感到自豪。
慢慢地,圍棋的人工智能發(fā)展起來了,很多國家都有IT人士在研究與開發(fā),各種圍棋軟件相繼出現(xiàn),實(shí)力也大大提高了。不過我們還是認(rèn)為,人工智能要趕上人類還早,至少在我的有生之年,人類還是可以贏過計(jì)算機(jī)的吧!
2016年1月27日,谷歌在《自然》(Nature)雜志發(fā)表論文,介紹了DeepMind團(tuán)隊(duì)開發(fā)的AlphaGo,以及它5 : 0戰(zhàn)勝歐洲冠軍樊麾的消息和棋譜。
我注意到,在與樊麾的對局中,AlphaGo展現(xiàn)出很強(qiáng)的實(shí)力。不過,當(dāng)時(shí)的圍棋界還是比較樂觀的,大家認(rèn)為從棋譜看,計(jì)算機(jī)是厲害了,但是沒有厲害到可以和職業(yè)圍棋的一流高手抗衡的地步。所以在AlphaGo和李世石的人機(jī)大戰(zhàn)前,一般大家都預(yù)測李世石五盤全勝不成問題。
對于一直比較關(guān)注圍棋人工智能進(jìn)展的我來說,坦率地講,對這次大戰(zhàn)的人類方并不是那么有信心。看了AlphaGo對樊麾的五局棋譜,感覺計(jì)算機(jī)已經(jīng)非常接近人類最高水平,盡管看上去它的很多著法還是有點(diǎn)拙,贏得也不多,但是計(jì)算機(jī)從來沒有落過下風(fēng)……很多人沒想到AlphaGo第一局就贏了,而且贏得非常漂亮,也沒想到最后4 : 1的結(jié)果,居然是李世石只贏了一盤。當(dāng)然那是一盤偉大的勝局,李世石在形勢不利的情況下弈出“神之一手”,引出了AlphaGo的bug(錯誤)。
從那次人機(jī)大戰(zhàn)的整體看,AlphaGo下得漂亮。比如第二局黑37手的尖沖,令人蕩氣回腸,感覺是吳清源老師回來了。吳老師曾說:“200歲之后我在宇宙中也要下棋。”那么,這是AlphaGo將吳老師的思想傳遞回來了嗎?想及此點(diǎn),我異常感動。
2017年新年AlphaGo再度出山,以Master的網(wǎng)名在各大圍棋對弈網(wǎng)站下了60盤棋,全勝。這60局,中日韓一流棋手輪番上陣,棋風(fēng)迥異的頂尖高手們和AlphaGo在盤上激烈碰撞,為我們留下了精彩的棋譜。
在對60局棋譜的學(xué)習(xí)中,我們迎來了烏鎮(zhèn)圍棋峰會,人機(jī)大戰(zhàn)第二季,由當(dāng)前世界圍棋第一人、年輕的柯潔對戰(zhàn)AlphaGo三番棋。
此次人機(jī)大戰(zhàn)的結(jié)果我覺得是沒有懸念的,因?yàn)槲易屑?xì)研究了Master的60盤棋(還寫下打譜心得供大家討論、一起學(xué)習(xí)),體會到了AlphaGo的強(qiáng)大。當(dāng)然,我們希望柯潔贏,但是我更關(guān)心的不是勝負(fù),而是AlphaGo會不會帶來一些更加神奇的,甚至是我們職業(yè)棋士也看不懂的著法,我期待著看到人機(jī)之間更加精彩的對抗。
5月23日第一局,柯潔執(zhí)黑。AlphaGo每一步都出乎我們的意料。特別是白54斷,真是驚世駭俗的一手,記得芮乃偉當(dāng)時(shí)不住地念叨:“什么意思?這不是后手嗎?”是的,是后手,但是這步棋,完全消去了黑勢,又使空虛的白角變厚了……
當(dāng)天我在接受采訪時(shí)說,AlphaGo的亮點(diǎn)是下出了人類棋手的一個盲點(diǎn),這充分說明了我們?nèi)祟愃季S的局限性。我從這盤棋學(xué)到很多東西,但是還不夠過癮,因?yàn)榭聺嵉暮谄逵悬c(diǎn)拘謹(jǐn),沒有放開。而AlphaGo展示了它掌控局勢的能力,掌握了布局階段的一點(diǎn)優(yōu)勢后慢慢推進(jìn),平穩(wěn)地走向終點(diǎn)。第二盤棋,我非常期待柯潔展現(xiàn)出自己的風(fēng)格,希望看到他對抗AlphaGo的最佳表現(xiàn)。
在24日的論壇上,DeepMind的CEO哈薩比斯和AlphaGo技術(shù)負(fù)責(zé)人席爾瓦的講座非常精彩,令觀眾了解了AlphaGo是如何依靠它的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)進(jìn)行剪枝和判斷的。但是最令人震撼的是席爾瓦先生在講話中說,AlphaGo Master(2017年初在圍棋網(wǎng)上60連勝的版本,此次對陣柯潔也是同一版本)經(jīng)過這一段的深度學(xué)習(xí),已經(jīng)比同李世石下棋時(shí)的版本進(jìn)步了three stones。三子啊!聽到這個說法,柯潔立刻在微博上發(fā)表了“天吶”的感嘆。
本來現(xiàn)在職業(yè)與業(yè)余之間的距離都非常小,三子得是多大的差距啊!真是有點(diǎn)難以置信。午餐時(shí)我們特地找哈薩比斯先生求證。哈薩比斯先生首先肯定了這three stones就是三個子,而不是三目(three points),然后解釋說這是系統(tǒng)自己測定的,按照“AlphaGo李”同“AlphaGo柯”自己對下時(shí)的結(jié)果估算出的實(shí)力差距,不說明和人類下也能讓三子。不過,他又補(bǔ)充了一句:“也許是讓兩子……”
嗯,這也已經(jīng)足夠令人震驚了。想起2017年3月到日本的時(shí)候,碰到了武宮正樹老師、趙治勛老師和小林光一老師,他們都不約而同地認(rèn)為如果是60局連勝,按照棋份來說,那是兩個子的棋份了。
25日第二局,一開始似乎柯潔小有不順,但是他及時(shí)停住,轉(zhuǎn)戰(zhàn)下方,在進(jìn)入中盤后成功地把AlphaGo拖進(jìn)了一場亂戰(zhàn)之中,這是柯潔最擅長的局面,可以盡情發(fā)揮自己的特長,感覺柯潔似乎放開了,拼命了,下得非常出色,可以說是為了逼AlphaGo使出了渾身解數(shù)。據(jù)賽后公布的數(shù)據(jù),AlphaGo認(rèn)為前100手是雙方最善。雖然后半盤柯潔弈出問題手,棋局戛然而止,但是那一局棋,令許許多多的觀眾熱血沸騰。
27日第三局,柯潔前半盤弈出問題手,之后奮力拼搏,一度使形勢非常接近,但后半盤還是AlphaGo掌控了局勢。我覺得,到了這時(shí)候,勝負(fù)更不重要了(當(dāng)然對柯潔仍然是重要的),我們最期待看到的是他們兩個下出什么樣的棋,盤上的內(nèi)容有多精彩,這一點(diǎn),我想大家都沒有失望。
去年,李世石與AlphaGo大戰(zhàn)之后,我發(fā)表文章說:“李世石并沒有輸給機(jī)器,而是輸給了人類創(chuàng)造出來的高科技。”今天的柯潔也是如此。他做了最大的努力,我們?yōu)樗恼啤?/p>
這次現(xiàn)身烏鎮(zhèn)的AlphaGo,在深度學(xué)習(xí)、硬件并行加速以及搜索算法的優(yōu)化方面都有長足的進(jìn)步。曾經(jīng)聽說,DeepMind要訓(xùn)練一個完全沒有人類棋手痕跡的版本,事實(shí)不是這樣的。確切地說,是在學(xué)習(xí)了人類棋手的大量棋局的基礎(chǔ)上,再進(jìn)行完全的自我對弈訓(xùn)練的。也就是說,達(dá)到一個高度后,它只需要自己克隆自己,昨天的自己就是今天最好的對手。AlphaGo的運(yùn)行原理是遇強(qiáng)則強(qiáng),我覺得,它就像一面鏡子,能夠反照出最好的那個你。
賽后的新聞發(fā)布會上,哈薩比斯先生宣布AlphaGo將退出圍棋賽事!也就是說,AlphaGo將退出江湖,從現(xiàn)在起只給我們留下背影。DeepMind團(tuán)隊(duì)同時(shí)宣布,將陸續(xù)公布AlphaGo互搏的50局棋譜。今天先公布10局,我看了幾個片段,那真的是有著許多可以顛覆圍棋觀的內(nèi)涵啊,谷歌的武功秘籍公開了。
非常感傷,一段傳奇真的就這樣離開了嗎?
回味這場“絕唱”,在傳承方面,AlphaGo吸收了很多前輩高手的精華并予以再創(chuàng)造。在棋局中,我看到它的很多著法有當(dāng)年吳清源老師的影子,心里非常感動。也許,上天是通過AlphaGo映照出了很多職業(yè)棋手在歷史上那些讓人難忘的場景,那些可歌可泣的精神。我相信,無論科技進(jìn)步到哪一層面,人類文明的精神、圍棋的精神是永遠(yuǎn)值得我們景仰和致敬的。
我們要向DeepMind團(tuán)隊(duì)致敬,他們創(chuàng)造了奇跡。僅僅三年,AlphaGo就打敗了人類幾千年的進(jìn)化。AlphaGo團(tuán)隊(duì)的黃士杰博士說:“我看見了人因夢想而偉大的真實(shí)意義。”我想,我們職業(yè)棋士是幸運(yùn)的,在這個科技突飛猛進(jìn)的時(shí)代,我們能夠看到超越人類極限的美好。仰望星空,來自未來的AlphaGo帶給我們更加廣闊而自由的視野。