人機大戰第二場綜述：“自我強化”比2：0更值得注意精選

由雷鋒網於 11/03/2016 發表收藏文章

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e17210b5b52.png

圖片來源：glb.clouddn.com

via medium

今日，圍棋“人機大戰”第二場於北京時間中午12點開戰。下午4點半，韓國棋手李世乭九段再次輸給 Google 的圍棋程序 AlphaGo。本輪對戰的結果雖然還是讓人震驚，但人們更多地也開始感歎AlphaGo的優異之處。
今日，AlphaGo的表現中，計算力的先決優勢依然不變，同時，由於AlphaGo執黑的先手權，我們也看到了它學習能力和創新能力的一面。

AlphaGo的“特異功能”：自我強化

在DeepMind，愛丁堡和Facebook，研究人員希望神經網絡能像人類選手一樣，通過觀看棋盤學習圍棋。Facebook在最新的研究中表明，這種方法確實可行。結合深度學習與蒙特卡洛樹搜索方法，Facebook打敗了一些人類選手，雖然並非是Crazystone和其他頂尖選手。

但DeepMind走得更遠。在經過3000萬步人類走法的訓練後，它的神經網絡能以57%的準確度（此前記錄是44%）預測人類的下一步。然後Hassabis和團隊通過強化學習技術，讓這一神經網絡與它自己的另一個稍有區別的版本對戰。兩者互搏中，系統會評估哪一步效果最好，即佔領更多棋盤區域。最終，神經網絡在判斷哪一步更好時會越來越優秀。
DeepMind的研究者David Silver表示，“在與其它神經網絡和它自己對戰數百萬局後，AlphaGo學會了自己發現新策略。”

正是這種方法，AlphaGo超越了其它圍棋AI系統，並讓戰勝人類選手成為可能。那麼，在今天的表現中，AlphaGo如何體現出這樣的能力呢？

讓人意外的開局

今天的第二局中， AlphaGo執黑先手，眾人也紛紛猜測：它會如何開局？會走公認有優勢的中國流嗎？然而，兩手之後，AlphaGo沒有選擇中國流，而直接掛角。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e161ed3cdb8.jpg

圖片來源：glb.clouddn.com

隨後，按照這種定式，職業棋手通常會先在下邊完成拆邊的定型。不過，AlphaGo並沒有這麼做，而是走出令人眼前一亮的走法：黑棋脱先，還原成中國流佈局。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e162129dce7.jpg

圖片來源：glb.clouddn.com

為何要脱先？為何要用這種方式完成中國流佈局？在AlphaGo數據庫中，應該有更多的選擇來參考變化。而根據接下來十幾手毫不示弱的走法看，這手脱先也許代表着機器人對佈局有了新的理解。
出其不意攻其不備

除了開局的策略展示出計算機圍棋的另類，AlphaGo在開局後的走子也時常走出出人意料的招數，形成一股“機器風”。

比如，下圖黑1的這一手，飄防的走法在過去的棋譜中較為罕見，但其妙處也給了人們新的啟發。這手最新的黑1餘此前J16的一手遙相呼應，防守中做好進攻的勢來。李喆六段表示：“對於黑方這步棋，作為棋手，我的震撼比看到外星人還要大。”這一手讓對手李世乭長考了一陣。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e1648b7b900.jpg

圖片來源：glb.clouddn.com

由於掌握先手，AlphaGo進取的一面也更清楚地展現了出來。比如，在左下方的局部爭奪上，擁有強大計算力的AlphaGo應戰積極，非常自信。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e167fdd73aa.jpg

圖片來源：glb.clouddn.com

最優化計算：無劫爭是必然還是偶然？

今天，許多人都提出了一個疑問：為何兩局結束後還沒有出現劫爭的情形？甚至推論AlphaGo不懂得打劫，且Google方面可以隱瞞。我們暫且不去猜測這種可能性，不妨看看它與AlphaGo走子毫不保留之間的聯繫。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e161bea30eb.jpg

圖片來源：glb.clouddn.com

AlphaGo今天表現出一個特點是：毫不保留。如上圖黑2，又是一手把變化走乾淨的棋，與職業選手喜歡有所保留的習慣不同。對此，小編有兩個想法：一是，正因為AlphaGo精密的計算力以及作為機器以最強點為首的原則，所以它才會每一步都走到盡，才會走出許多的“怪棋”。二是，也因為如此才導致局面缺乏劫材。
曹大元九段表示，極度複雜打劫的情況本身千年難遇，哪怕是人與人之間的對弈。

http://7te8bu.com1.z0.glb.clouddn.com/uploads/new/article/740_740/201603/56e16bc029bcf.jpg

圖片來源：glb.clouddn.com

AlphaGo能給人類圍棋帶來啟發嗎？

經此一弈，AlphaGo在許多地方走出特別的一手，給人類棋手帶來新的思考。某些也許是失誤（但究竟什麼是失誤，誰知道呢），但某些地方，直播中的曹大元表示：不可思議，我要報警了！不過，這對職業棋手也有很大的啟發，可以進行深度研究。互聯網進化論提出者劉鋒則表示，通過這些跡象，也能幫助我們更好地研究AlphaGo。

資料來源：雷鋒網
作者/編輯：曉樺

標籤: AlphaGo

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

雷鋒網雷鋒網創辦於 2011 年，從起始的科技博客，逐步發展成一個科技信息與產品服務平台。雷鋒網擁有三大業務單元，深入移動互聯網與智能硬件行業，為廠商及用戶提供了涵蓋媒體資訊、社...

編輯簡介

雷鋒網雷鋒網創辦於 2011 年，從起始的科技博客，逐步發展成一個科技信息與產品服務平台。雷鋒網擁有三大業務單元，深入移動互聯網與智能硬件行業，為廠商及用戶提供了涵蓋媒體資訊、社會化傳播、產品改進和預售等多...

快捷鍵：←

快捷鍵：→

人機大戰第二場綜述：“自我強化”比2：0更值得注意 精選

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App

人機大戰第二場綜述：“自我強化”比2：0更值得注意精選