DeepMind官方解讀新版AlphaGo強大實力－小菜優惠本舖

DeepMind官方解讀新版AlphaGo強大實力

參與：李澤南、吳攀來源：機器之心

5 月 23 日，烏鎮圍棋峰會第一場人機大戰以柯潔落敗而結束，DeepMind 和谷歌在今天的人工智能高峰論壇中詳細回顧瞭昨台中靜電油煙機租賃天的比賽，並解讀瞭 AlphaGo 背後的強大實力。

第一天比賽結束，DeepMind 創始人 Hassabis 表示，比賽進入瞭數子階段，AlphaGo 的優勢很小，柯潔完成瞭一場偉大的比賽。竭盡全力的柯潔表示，此次大賽之後不但不會再與機器交戰，也不會利用機器來練習，他‘更喜歡與人類棋手下棋，這樣自己還有贏的可能。’

比賽之後，DeepMind 在官方網站上發佈瞭一篇對這場比賽的分析解讀，機器之心對這篇文章的內容進行瞭編譯介紹。同時，我們還整合瞭機器之心前方記者發回的一線報道，讓我們可以一窺 AlphaGo‘讓天下三子’的棋力及其背後的技術。

第一局比賽官方回顧

柯潔與 AlphaGo 在圍棋峰會上的第一場比賽跌宕起伏，黑棋和白棋都展現瞭細致入微的精細佈局。經過多次局部交鋒與創新的變化，AlphaGo 執白堅持到瞭最後，以 0.5 點（1/4 子）的微小優勢獲勝。

在開局階段，柯潔使用瞭大膽的策略率先發起瞭攻勢，他采用瞭以往 AlphaGo 最喜歡的舉動——點三三。這種策略在 20 世紀 30 年代由圍棋界的傳奇吳清源與木谷實引入棋壇，並在棋壇流行多年，但在當代棋壇銷聲匿跡。然而，隨著 AlphaGo 的出現，最近柯潔等頂級棋手已經開始嘗試在正式比賽中將這一方法復興瞭。在柯潔走出點三三後，AlphaGo 以它最喜歡的二間拆應對，柯潔向前延伸，完成瞭侵入。此前，隨著 AlphaGo 在以 Master 名義進行 60 盤網上對局的比賽中，這樣的變化正逐漸流行起來。

柯潔和 Demis Hassabis 在比賽之前握手

跟著就是一個罕見的三三打入定式，然後 AlphaGo 落下瞭非常新穎的一子：它沒有直接以扭的方式打吃或使用常見的飛，而是在第 24 手使用瞭大飛擴展瞭范圍。樊麾相信 AlphaGo 此舉體現瞭它自己的哲學：‘AlphaGo 的方式並不是在這裡那裡爭奪棋盤局部的空間，而是把每顆棋子都放在對大局最有意義的位置上。這是真正的圍棋理論：並不是“我想要得到什麼”，而是“我該怎樣讓每顆棋子都發揮出其最大的潛力”。’

之後，兩位棋手在左上角進行瞭一場激動人心的交換，柯潔在這個過程中表現出色。放棄托角而取得邊，黑棋在一場交換中吃掉瞭四顆白子，而 AlphaGo 評估認為這對雙方來說都是理想的結果。柯潔真不愧是世界第一！通過在第 49 手使用的方法，黑棋在下盤威脅到瞭白棋的厚勢，但白棋在第 50 手和 54 手時通過刺和斷轉變瞭方向。這些走法的目標並不是直接的跟隨，而是在精妙地最大化其在這一區域的實力和未來的主動權。盡管 AlphaGo 更偏愛單關跳來強化其中心實力，柯潔在第 51 手對四顆白子進行瞭包圍，維持瞭對局部的控制。在第 55 手，一著聰明的試應手讓黑棋通過左底部邊角來交換更下面的邊，柯潔的這一步選擇為棋局的未來進展設定瞭方向。在黑棋在邊角存活下來之後，卻給瞭白棋一道外圍的銅墻鐵壁，柯潔果斷地放棄瞭他在更下面邊的棋子，以在上部分獲得更強的優勢和主動權。

隨後，在所占的實地落後的情況下，柯潔被迫充分利用上邊，從而在第 97 手下出瞭雄心勃勃的大跳（這或許是勝負手）。AlphaGo 在第 98 手的反應又迫使靜電機出租柯潔在第 99 手截斷這單顆白棋，這一決定性的變化開啟瞭這局比賽的最後一次大范圍交換。在收官階段，柯潔奮力追趕，而 AlphaGo 則保持適當但安全的領先，最終以四分之一子的優勢獲勝。

DeepMind 希望我們在這場比賽中看到的創新能夠成為圍棋更多創新的開始，並期待全世界的棋手們都能分析這些下法，並在未來的對弈中嘗試它們。

‘讓天下三子’的棋力和技術

比賽之後，David Silver、谷歌大腦負責人 Jeff Dean 等人在烏鎮圍棋峰會現場對 AlphaGo 背後的技術進行瞭解讀，以下是機器之心對相關內容的整理解讀。

機器之心已經多次報道過瞭AlphaGo的基礎技術，可參閱機器之心昨天的報道《柯潔 1/4 子惜敗，機器之心獨傢對話AlphaGo開發者導師 Martin Müller》。AlphaGo 結合瞭監督學習與強化學習的優勢。通過訓練形成一個策略網絡，將棋盤上的局勢作為輸入信息，並對有所可行的落子位置形成一個概率分佈。然後，訓練一個價值網絡對自我對弈進行預測，以-1（對手的絕對勝利）到 1（AlphaGo 的絕對勝利）的標準，預測所有可行落子位置的結果。

圍棋的分支系數非常大：每一顆棋子可能的走法數量超過瞭整個宇宙的原子數量，而且不像國際象棋，它無法用窮舉搜索的方法來得到結果。

為瞭減少搜索的寬度，AlphaGo 會根據策略網絡（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

而為瞭減少搜索的深度，AlphaGo 使用瞭價值網絡來進行評估。雖然 AlphaGo 的價值網絡不能準確地計算出影響的數值，但它的價值網絡能夠在一定深度上一次性考慮棋盤上的所有棋子，以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優勢轉化為整個比賽的勝勢。

AlphaGo 將這兩種網絡整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現瞭它真正的優勢。

現在的 AlphaGo 使用的是去年的硬件（TPU 第一代），系統共用到 4 個 TPU ，相比去年與李世乭對弈時需要的計算能力大幅縮小，而因為算法效率的提高，圍棋水平卻增強瞭。

一間 64 臺 TPU 的艙中，有 1/8 用於訓練的一個機器翻譯模型，也就是說有 8 個 TPU 訓練機器翻譯模型。谷歌軟件工程師陳智峰告訴機器之心記者，在他們所做的模型訓練測試中，使用 8 個 TPU 能讓原先的訓練時間從 24 小時縮短到一個下午。谷歌的 TPU 艙還在建立中，在問及谷歌目前有多少個這樣的 TPU 艙時，谷歌方面還不願透露。

在基本方法的基礎上，AlphaGo Master 有瞭進一步的提升。

其可以復盤前面的棋局，預測走到哪一步就可以贏，每一步都預測未來的贏傢。原版的網絡有 12 層，而 Master 有 40 層。

在棋力評估上，與樊麾對弈的 AlphaGo 版本比 Zen/Crazy Stone 有四子的優勢，而與李世石對弈的 AlphaGo 版本比與樊麾對弈的 AlphaGo 版本又有三子的優勢，而現在最新的 AlphaGo 版本又新提升瞭三子的優勢。

深度強化學習不僅可以用來下圍棋，而且還可以進行像素學靜電油煙機租賃習，學習 3D 虛擬遊戲，可以自己學會在 3D 環境中學習導航。

另外據Jeff Dean介紹，谷歌建有TPU艙，一個TPU艙裡面包含64臺二代TPU，能進行每秒11.5萬億次浮點運算，4倍快於市面上最好的32臺GPU。

各方對本局比賽的點評

在 5 月 23 日的比賽過後，參賽兩方和各路圍棋職業選手圍繞棋局和技術的角度對這場對決進行瞭解讀。

柯潔：我很早就知道自己要輸 1/4 子，AlphaGo 每步棋都是勻速，在最後單官階段也是如此，所以我就有時間點目，看清自己輸 1/4 子，所以隻好苦笑。

如果要我自己點評，AlphaGo 確實下得太精彩，很多地方都值得我們去學習、探討，思想和棋的理念，改變我們對棋的最初的看法，沒有什麼棋是不可以下的，可以大膽去創新，開拓自己的思維，去自由的下一盤棋。今天我也是大膽去開拓自己的思維，在我印象中，AlphaGo 非常貪戀實地，開局點三三等等。所以今天我也一直貫徹先撈後洗的戰術，先把實地鈔票撈到手，但在角部還是被他掏到實地，打破瞭我的戰術，一下子就進入他的步調瞭。感覺 AlphaGo 和去年判若兩人，當時覺得他的棋很接近人，現在感覺越來越像圍棋上帝。我希望盡全力去拼每一盤棋。很感謝有 AlphaGo 這樣的對手，感謝 DeepMind 團隊給我機會去下這三盤棋，也希望通過這次比賽讓大傢瞭解圍棋這個好項目，給大傢帶來快樂。

AlphaGo 其實已給我們展現瞭很多精彩的實戰，弱點暫時還沒有看到。我覺得以前他還是有，但現在對棋的理解和判斷遠勝於我們，所以想贏隻好通過找 BUG，但真的很難。不過對自己永遠要有信心。之前我發微博說，這可能是我與人工智能最後三盤棋，現在就隻剩兩盤棋瞭，這可能是我活到現在最難得的機會，我會盡全力去珍惜這次機會。

我做這個決定已經考慮很久，因為我覺得 AI 進步速度太快瞭，每一次都是巨大進步，我覺得以後可能會變得更加完美，人與他的差距不是靠自身的努力可以去彌補的。我還是想和人類下棋，因為到未來，我們與 AlphaGo 的差距可能越來越大，人和人的差距可能越來越小。我對人的勝率還可以。這次峰會是我與人工智能的最後 3 盤棋，當然也不會在網上與人工智能練棋。如果人類比賽中出現 AI，我雖然不願意但也不是我能決定的，我覺得我也可能會輸。我其實對今天的表現有點不滿，覺得能做的更好。但這次是最後一次較量，希望不留遺憾，下出好棋，讓 AlphaGo 主機更發燙一點也好。

Michael Redmond（目前唯一的非東亞裔圍棋九段選手）：柯潔從今年 1 月份 Master 的一系列比賽中獲得瞭靈感，在他的佈局中加入瞭一些新變化。他在今天的比賽中使用瞭和 AlphaGo 類似的低位打入策略，這是以前聞所未聞的舉動。盡管這是一個我們難以理解的策略，但過去一個月職業棋手們一直在對它做出自己的解讀。

此外，在 5 月 23 日比賽結束後的新聞發佈會上，AlphaGo 團隊的 David Silver 透露瞭新一代 AlphaGo 是年初 Master 的升級版，並提到一些細節：新的 AlphaGo 程序運行在單個谷歌雲服務器上，由 TPU 芯片進行計算處理。算法上也進行瞭革新，它所需的計算能力僅需與李世乭對戰時的 10%，自我對弈能力更強。去年，AlphaGo 的模型中有 12 層神經網絡，而在以 Master 名義出戰時，深度已有 40 層。

在被問及 AlphaGo 是否控制瞭本局比賽的勝率時，Silver 解釋道，擴大每一步棋勝率是 AlphaGo 的探索的一個方向。如果隻是為瞭取得最終的勝利，每一步它都會選擇走風險很小的棋。

Demis Hassabis（DeepMind 創始人和首席執行官）：偉大的比賽！向柯潔致以敬意，他將 AlphaGo 推向瞭自己的極限。AlphaGo 仍需要和人類對弈，它需要先學習人類棋譜，隨後開始通過自我對局來進步提高，所以 AlphaGo 是依靠人類棋譜數據和此前版本來進一步提升。僅通過自身對決可能發現不瞭缺陷，和頂尖棋手對決才能提高。我們希望通過完善 AlphaGo，在其他領域為人類服務。我們在《自然》上發表瞭論文，本周之後我們會公佈更多細節和計劃，眾所周知目前也有很多強大人工智能軟件，我們也會在今後公開 AlphaGo 更多技術細節，使其他實驗室或團隊能夠建造自己的 AlphaGo。（創事記）