- AlphaGo六十連勝對局解析
- 江鑄久 芮乃偉
- 4773字
- 2019-09-12 14:50:09
第二篇 追憶吳清源師父
從吳清源到AlphaGo
是三子而不是三目
“什么?讓三子?”職業圍棋界炸開了鍋。
2017年5月24日,在烏鎮圍棋峰會的論壇上,谷歌DeepMind團隊技術負責人大衛·席爾瓦先生宣布:“去年和李世石五番棋AlphaGo版本,經過這段時間的深度學習,進步了三個子。”對戰的另一方柯潔則在微博里說:“這個差距有多大呢?簡單地解釋一下就是,一人一手輪流下的圍棋,對手連續讓你下三步……就像武林高手對決讓你先捅對方三刀一樣……我到底是在和一個怎樣可怕的對手下棋……”
AlphaGo以4 : 1戰勝韓國頂尖高手李世石,是在2016年3月。十個月之后,AlphaGo又在與柯潔的對決中連贏三局。
旗開得勝的第一局中,執白的AlphaGo雖然只勝了1/4子——這是圍棋比賽計算的最小值,但是在職業棋士看來,那盤棋AlphaGo一直掌控著局勢,柯潔根本沒有勝機。況且比賽的結果以輸贏計,輸多輸少本無意義。
AlphaGo每時每刻都在進步,我們人類喝杯水、吃點東西的時候,我們睡覺的時候,它一直在深度學習。這次的三番棋,柯潔拼死戰斗,但是周邊對于勝負的預測是一面倒的,說柯潔有10%的勝率已經是很樂觀了。因此,我期待的是AlphaGo會不會帶來一些更加神奇的、甚至是我們職業棋士也看不懂的著法,期待著看到人機之間更加精彩的對抗。
但即便如此,三個子,仍然是太深的一道鴻溝。芮乃偉甚至覺得,會不會是我們理解錯了,說的“three points”(三目)而不是“three stones”(三子)?因為即使是三目,在職業棋士看來也已經非常懸殊。
午餐時,大家仍然在熱烈討論中。徐瑩突然說,我們直接去問問哈薩比斯吧,就是沒人翻譯。我說我來啊,就是不知道他在哪。四下一望,DeepMind創始人、AlphaGo之父德米斯·哈薩比斯先生正在大餐廳另一頭的角落里就餐。
說去就去。我走上前說:“對不起,哈薩比斯先生,打擾你午餐了。我們是職業棋手,有個問題想請教你。”哈薩比斯先生站起來說:“很高興認識你們,請問吧。”
我說:“我們很尊敬你們,你們團隊做了了不起的事情。想請教的是,上午席爾瓦先生說,現在的AlphaGo比和李世石對局時進步了三個子,這是表示在棋盤上的三個子呢,還是三目?”哈薩比斯先生回答:“是三個子!”同時他比劃了一個在棋盤上落子的動作。
我轉身告訴大家,他說是三個子。徐瑩急了:“這是真的?三個子可是很大的差距啊!”哈薩比斯先生像是聽懂了我們的對話似地,點點頭,又解釋道:“不過,這是我們內部由新舊兩個版本自己對弈后的勝率統計而測定的標準,并不說明可以讓人類棋手三子。”之后又補充一句:“Maybe two stones.”(也許兩子。)
我謝了他,然后說:“真是太了不起了!AlphaGo在2017年新年時在網上下的60盤棋非常厲害,我仔細地打譜研究。AlphaGo的棋下得太精彩了,去年對李世石第二盤的黑37尖沖,就很像吳清源老師的思路。我把這一手印在T恤上,發給自己的學生穿,這次也帶來了,希望能夠送給你。”哈薩比斯先生說:“就交給我的助手海倫吧,謝謝你!”
我說我還有一個建議,我們都很想看到AlphaGo自己對下的棋譜,能不能發表一些,供我們學習,哈薩比斯先生說會考慮。
我們再次感謝他。徐瑩請他簽了名。走過兩個桌子,碰到美國圍棋協會主席安德魯等幾個朋友,我們便停下來一起討論。有人說本來這次有過這個想法的,AlphaGo讓職業棋手三子,看看會是什么結果。可也許職業棋手不愿意吧。乃偉脫口而出:“我愿意啊,我想看看AlphaGo到底有多強。”記者朋友笑了:“那我們是不是應該向DeepMind團隊提出來啊?乃偉從來都只想著棋盤上的事兒,她才不在乎輸贏和面子呢。”
這時,哈薩比斯先生從餐桌那里徑直向我們走來,微笑著說:“我想跟你們一起拍照可以嗎?”“當然可以!”,我回答道。拍完照,哈薩比斯先生問:“你們兩個都是九段?”我說:“是”。他問:“還有別的九段夫婦嗎?”我說:“目前還只有我們”。然后我說:“我知道你是國際象棋大師,13歲就拿到了大師稱號。”他笑了,很開心的樣子。助手在催他去下一個日程了,他說:“讓我們共同期待明天的對局吧。”
重現一個更厲害的吳清源
哈薩比斯的父親有希臘和塞浦路斯血統,母親是華裔新加坡人。他1976年出生在倫敦北部,不僅在13歲時獲得了國際象棋大師稱號,還是五次獲得“智力奧運會”精英賽冠軍的世界紀錄保持者,被譽為這個星球上最聰明、身價約合6.3億美元的人工智能專家。
在烏鎮的演講里,哈薩比斯說:“AlphaGo和當年的吳清源先生一樣,引發了一場圍棋革命。希望這次能對圍棋界有所幫助。”他還特別邀請了吳老師的女兒來到烏鎮觀戰,可見他對吳清源老師的尊敬。
我后來告訴哈薩比斯,吳清源有兩名弟子,一位是林海峰。他說林先生他知道的。我說還有一個,我指指身邊的乃偉:“就是她!”哈薩比斯先生笑著對乃偉說:“沒人告訴我你在這里。”
吳清源老師步入老年后仍然每天研究圍棋,探索精神永不停止。20世紀90年代初,他收了芮乃偉做弟子,教給她很多著法,幫助她打開思路。同一時期,吳老師將他的研究心得以“二十一世紀的圍棋下法”的題目發表。吳老師認為,現代人局限很多,經常走進死胡同,棋士應該以更加自由而廣闊的視野來注視棋盤。
作為弟子,芮乃偉是在吳老師晚年聆聽他教誨最多的棋手,可惜的是當時她正式比賽很少,得不到很多實踐的機會,另外也有天資和棋力方面的局限。她是盡可能地在有限的對局中運用吳老師的思想,有些效果不錯,但是也有很多地方理解得遠遠不夠,或者后續手段沒有跟上。吳老師21世紀的圍棋,沒有被大家普遍理解和接受,有吳老師的理論太超前的原因,但也有乃偉這個弟子不得力的原因。
我對哈薩比斯說:“我們都很希望能夠有機會和AlphaGo對局。不過我更希望,如果有可能的話,把吳清源老師精彩的棋局都輸進去,讓AlphaGo幫我們重現一個更厲害的吳老師,或者幫我們更好地理解吳老師當年的想法(能看到AlphaGo的后臺分值就可以)。”哈薩比斯先生說:“這個主意很好啊!我們要找個時間坐下來好好聊一聊。”
此前,在和DeepMind團隊的研發專家談話時,我就提出了這個希望:AlphaGo能不能展現出歷史上各位大家的棋風,讓我們看到一個更加強大的吳清源老師或者武宮正樹九段。換言之,一個更有特點的、有人文精神的AlphaGo。
其實AlphaGo已經在這么做了。去年戰李世石的AlphaGo,更多的是傳承和總結,通過深度學習,融會貫通人類在圍棋上的精華部分。而現在的AlphaGo,是在此基礎上,完全左右互搏,用自己的學習和判斷,進行再創造,展現出遠超人類的強大實力。
對李世石的第二局,黑37五路尖沖,這一手超出了所有職業棋手的想象。我當時看了真是熱淚盈眶,覺得吳清源老師又回來了。
“200歲之后我在宇宙中也要下棋”
1934年1月29日,日本東京數寄屋橋的旅館,近代日本圍棋史上一盤非常重要的對局進入了官子階段。19歲的吳清源對陣61歲的秀哉名人,這場歷時三個半月的比賽終于要到終點了。
盤上是執白的秀哉名人稍稍有利的形勢。對局中,吳清源起身離座去洗手間。他拉開紙隔門,低頭找到拖鞋,一抬頭無意中看見休息室里黑壓壓一群人安靜地端坐著,身穿和服正裝,每個人手里都拿著棋譜,上面列出各種收官方式直至終局的路徑。也就是說,本因坊門下已經將所有的官子都徹底研究透了。雖然人這么多,可是鴉雀無聲,氣氛異常緊張。
這盤棋從1933年的10月16日開始,一直到1934年1月29日才結束。對局吸引了全日本圍棋界乃至其他各界矚目,因為一方是剛剛獲得全日本選手權戰冠軍的19歲的吳清源,而另一方是代表傳承日本三百多年圍棋歷史的本因坊家族的秀哉名人。這注定是一場新舊勢力的對抗,而吳清源的中國人身份,又使比賽戴上了國際棋戰的標簽。
比賽的規則是每周的星期一下四個小時,白方秀哉名人可以隨時暫停,而執黑的吳清源則必須在每一次對局中下最后一手棋,這意味著每回比賽暫停后,秀哉都可以回去研究,而事實上他也這么做了——召集所有門下弟子研究對策。
這樣不平等的規則,是日本職業比賽的傳統,每逢重大比賽,上手一方是可以隨時暫停的。由此帶來的便利條件是逢難題他可以回去研究,甚至是集體研究。本因坊門下將才如云,前田陳爾就是出類拔萃的一員虎將。
當時吳清源正處于用新布局下棋的狂熱時期,執黑第一手即于右上下三三,接著又在對應的角上下星位,第五手則下在天元,就是著名的三三星天元一局。下三三在當時是注定要引起轟動的,因為三三對本因坊門人來說是禁著。歷代本因坊早就宣布了三三不是好棋,所以不單本因坊一門不能下,就是別的門派的棋手,也是不敢下的。盡管吳清源在研究新布局的過程中下了很多次,但是敢在秀哉名人面前下出來,依然遭到很多非議。有些報紙評論說,吳清源第一步的三三是對本因坊的無理挑戰,甚至說這是心理戰的一部分。很多抗議的信件寫給了主辦方讀賣新聞社。
從技術方面看,三三之所以被歷代高手所唾棄,是擔心過于注重實利,不利于中央作戰。這似乎也是有道理的。第三手的星,又是重勢的一手,在傳統的思維中也不受待見。那時的正統是小目,認為兼顧勢和地。
那么問題來了,重實地的三三和重勢的星的結合,到底要干什么呢?更有甚之的是,第五手天元!到底是要勢呢還是要地?看上去實在是有些矛盾的,有違當時的圍棋觀,即使是善意的人們,也是不能理解。下棋最重要的是連貫性,加上長期以來“金角銀邊草肚皮”的說法根深蒂固,下在天元?這不是草肚皮嘛!總之,這真是一個奇特的布局。
多年后的今天,我們看到AlphaGo就是這么下的:一會兒尖沖對方的小飛角,是取勢的下法,緊跟著就點三三了,完整的實地路線。那么我也想問,“阿老師”究竟是要取勢還是取地呢?原來,不單單是三三星天元那局棋的時代大家沒能明白吳清源老師超前的圍棋觀,就是80年后的我們,也沒能真正理解吳老師啊!
現在,橫空出世的AlphaGo,使用了很多吳老師曾經提倡的思想與戰術。吳清源曾說過:“200歲之后我在宇宙中也要下棋。”也許,上天是通過AlphaGo傳遞給我們吳老師的信息,盤上那些自由而無拘束的著想,映照出吳清源老師一生中那些令人難忘的場景和可歌可泣的精神。AlphaGo幫助我們更好地理解和體會吳老師當年的教誨,使我們更加明白吳清源這個名字的偉大。
來一場淋 漓盡致的失敗
下午,一不小心去了杰夫·迪恩的記者會——后來才知道這個軟件工程師有多牛,據說谷歌員工認為谷歌搜索驚人的速度都歸功于他。舉手提問的記者非常多,感覺都是科技圈的,和我們職業棋手的關注點有所不同。
會后,主辦方好意安排我和他聊幾句。我先做了自我介紹,然后告訴他,在美國時我家就在Mountain View,離谷歌總公司很近,甚至比你們公司還要早進駐硅谷,他笑了。于是我問他,AlphaGo的開發會一直繼續下去嗎,有沒有目標,比如準備進步到什么程度。杰夫馬上嚴肅起來,答道:“這個要去問DeepMind團隊……”我再問:“我現在正在從事圍棋的兒童教育,你覺得人工智能,比如AlphaGo在對孩子的教育方面有些什么幫助?”杰夫很認真地說:“人工智能會很好地啟發孩子們的創造力。”
謝過了他,我們一起下樓,說了再見。過了一會兒,我正和一些朋友聊天,看見他又轉了回來,一臉迷茫。問他是不是迷路了,他說聽說有咖啡喝,可是怎么找不到呢?我趕緊指給他方向。美國公司這么頂級的牛人身邊是沒有助理的。
再次跟杰夫說“Bye”,回頭繼續聊天。美國圍棋協會的另一位朋友,安德魯·杰克森負責這次宣傳的工作。他說:“我聽說你有學習AlphaGo 60局的筆記,我有沒有榮幸看呢?”我馬上把包里帶著的兩本拿出來送給他。他說要把它翻譯成英文,這可以幫助很多人學習。我說:“沒問題,如果可以幫到更多人我就太高興了。”
不一會兒,歐洲圍棋協會主席馬丁也跑來要學習筆記,自然要送。我很愿意分享自己對AlphaGo的學習體會,希望更多的圍棋愛好者能夠欣賞到“阿老師”在盤上的出色表演。
就像我在柯潔對AlphaGo第一局之后接受新浪專訪時說的,這次人機大戰的結果是沒有懸念的。比起勝負,我更希望的是,柯潔放開了拼,下出他的最好狀態,“來一場淋漓盡致的失敗”,這樣也可以迫使AlphaGo展現出更強的實力。
記得去年李世石輸給AlphaGo的時候,乃偉難過得天昏地暗。但現在,她和我一樣,都由衷地為“阿老師”鼓掌,心心念念希望看到更加美好的圍棋。
AlphaGo就像一面鏡子,能夠映照出最好的那個你。如果你實力一般,表現平平,AlphaGo沒準只贏你幾目;而如果你下得精彩,那么,AlphaGo也會精彩,會更加精彩。