在此前的版本中,博米圍棋大師用到了“策略網絡”來選擇下一步棋的走法,以及使用“價值網絡”來預測每一步棋后的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。
博米圍棋AI并不使用快速、隨機的走子方法。在此前的版本中,博米圍棋大師用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。
相反,新版本依靠地是其高質量的神經網絡來評估下棋的局勢。
現在“博米圍棋大師是通過兩個不同神經網絡“大腦”合作來改進下棋。
這些“大腦”是多層神經網絡,跟那些圖片搜索引擎識別圖片在結構上是相似的。
劉光然和曹陽站在觀察房里面看著對面的棋手們正在陷入痛苦的掙扎之中,在小黑屋里面,擺放著許多的顯示器,上面正在演示著棋手和電腦的對弈局面。
曹陽看了一眼,表示自己看不明白,反正最后只要能看得出誰輸誰贏就可以了。
“我們最開始的圍棋AI算法,就是從神經網絡和深度學習入手,然后通過往數據庫當中輸入大量的對弈局勢,之后從這些對局當中進行學習,來找到更加適合的方法。”劉光然對曹陽說,“當時的這一套方案還是取得了不錯的成績的,至少能夠下過一些職業二段和三段的選手。”
在做這個課題之前,其實劉光然自己也不下圍棋,但是做完這個課題之后,劉光然不僅僅是一個AI專家,棋藝也是進步神速。
之前得到不少專業棋手的指導,甚至還拜過一個5段的職業選手為師。
后來劉光然發現,自己無論如何也下不過自己開發的AI的時候,他就陷入了深深的絕望之中,最近這段時間劉光然之所以這么快活,是因為他已經完全放棄了想要成為一名圍棋高手的想法。
原來劉光然在大學時代還是金庸武俠迷,特別是喜歡里面的珍瓏棋局,現在覺得——
這一切都是他特么的瞎扯淡。
如果在這個世界上真的有什么能夠超越人類的極限的話,劉光然絲毫不會懷疑,那就是人工智能。
從某種意義上來說,劉光然是幸福的。
因為他可以專注地做自己擅長的事情,而不用把時間浪費在不必要的遐想上面,明白了自己下圍棋不可能超過電腦之后,反而整個內心都純凈了。
“而現在的博米圍棋大師已經是擯棄了人類棋譜,只靠深度學習的方式成長起來挑戰圍棋的極限。”
“哎!?”
曹老板驚訝地回過頭來,難以置信地看著劉光然。
這是個什么鬼啊?!
也就是說,你現在已經沒有讓它學習棋譜了?
那它怎么戰勝那些職業棋手啊?!
我特么還想要讓我們的圍棋大師好好地戰一戰世界冠軍,一戰立威來著。
劉光然耐心地解釋到,“我之前不是說了嗎?我們改進的新方案,是讓博米圍棋大師有兩個大腦。
它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。
第一大腦:落子選擇器
博米圍棋大師的第一個神經網絡大腦是“監督學習的策略網絡”,觀察棋盤布局企圖找到最佳的下一步。
事實上,它預測每一個合法下一步的最佳概率,那么最前面猜測的就是那個概率最高的。這可以理解成“落子選擇器”。
第二大腦叫做,棋局評估器。博米圍棋大師的第二個大腦相對于落子選擇器是回答另一個問題,它不是去猜測具體下一步,而是在給定棋子位置情況下,預測每一個棋手贏棋的概率。
這“局面評估器”就是“價值網絡”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對于閱讀速度提高很有幫助。
通過分析歸類潛在的未來局面的“好”與“壞”,博米圍棋大師能夠決定是否通過特殊變種去深入閱讀。
如果局面評估器說這個特殊變種不行,那么AI就跳過閱讀。
這些網絡通過反復訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以人們是不可能精確知道網絡是如何“思考”的,但更多的訓練后能讓它進化到更好。
博米圍棋大師為了應對圍棋的復雜性,結合了監督學習和強化學習的優勢。
它通過訓練形成一個策略網絡,將棋盤上的局勢作為輸入信息,并對所有可行的落子位置生成一個概率分布。
然后,訓練出一個價值網絡對自我對弈進行預測,以1到1的標準,預測所有可行落子位置的結果。
這兩個網絡自身都十分強大,而博米圍棋大師將這兩種網絡整合進基于概率的蒙特卡羅樹搜索中,實現了它真正的優勢。
新版的博米圍棋大師產生大量自我對弈棋局,為下一代版本提供了訓練數據,此過程循環往復。
在獲取棋局信息后,博米圍棋大師會根據策略網絡探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。
在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為博米圍棋大師的最終選擇。
在經過先期的全盤探索和過程中對最佳落子的不斷揣摩后,博米圍棋大師的搜索算法就能在其計算能力之上加入近似人類的直覺判斷。”
“嗯……很好。”曹陽點點頭,“我已經聽懵了。”
媽耶,這人居然還真的想要教會我。
對不起,光然,我讓你失望了。
雖然曹老板是清大計算機畢業的,不過他還是聽懵了。
主要還是多年沒有搞研究工作了,離開這個行業久了,難免就會有些退步。
劉光然:……
“呃……用人話說就是,我們沒有讓電腦學習怎么下圍棋,但是呢,他會左右互搏,同時還能懂得無招勝有招的道理,就像是倚天屠龍記電影里面,張三豐教張無忌學太極拳,當他已經忘記所有的招式的時候,他就已經練成了這門神功了。”
“哦,原來如此。”
曹陽認真地點點頭,我現在懂了。
這幾年時間,對于這些參與博米圍棋AI測試的職業選手們,可以說是經歷了一個從天堂到地獄的過程。
最開始跟博米圍棋大師下棋的時候,這個AI還顯得非常的蠢,有時候經常死機,要不然就是突然抽風了亂下棋子。
有的時候被人家圍了大龍,還在拼命地逃竄。
有的時候博米圍棋大師特別執著于打劫。
按照他們之前的想法,覺得就博米研究出來的這個蠢東西也配叫人工智能?
還不如把錢花到其他地方,可能產生的收益更高。
但是,后來他們被光速打臉。
因為他們發現,自己所面臨的對手,每天都在不停地進步和成長。
這種感覺是非常可怕的,而且成長的速度遠遠超過了人們的想象。
越到后來,博米圍棋大師犯下的錯誤就越少。
然后本來可以100贏棋的,已經開始有一些職業選手輸給AI了,但是當時圍棋界都不以為意,主要是之前博米圍棋大師表現得實在是太蠢了。
后來這些職業選手們不由得不認真重視起來,每次對弈的時候都把對方看做一個真正的厲害的棋手。
漸漸收起了輕視之心。
可哪怕在這種情況下,隨著時間的推進,也是日漸不敵。
到最近一段時間,10有9輸,而這幾天已經完全贏不了博米的圍棋大師了。
更可怕的是,現在這些坐在小黑屋里面的5段棋手們,根本就看不懂博米圍棋大師下棋的套路。
游戲時候,它隨便走的一步棋,乍看之下特別奇怪,還以為又像之前那樣是不是AI突然抽風了,結果當你追殺過去的時候,才發現已經落入了敵人的圈套。
以前跟博米圍棋大師下棋的時候,這些職業棋手們要么就是大勝,要么就是大敗,差距可以高達十幾二十目的樣子。
但是最近他們發現,博米圍棋大師已經進化成了真正的大師,是屬于那種完全在實力上碾壓你,但是還要照顧到你的自尊心,最后只勉強贏你個一目半目的樣子。
可你每次下棋,都有一種被捆住的感覺,這種感受非常難受。
面對一個講武德的圍棋大師。
他們有時候甚至希望它不要那么講武德更好一點,就不會給你一些虛無縹緲的希望,然后在下一次的對局當中繼續靠著贏個半目羞辱你。
曹陽默默觀察著,看了看顯示屏上面的對戰情況,然后再看看在小黑屋里面的選手們的臉上表情變化。
其實主要是看他們的表情變化,畢竟曹陽不懂圍棋。
從他們臉上的艱難的,不時皺起的眉頭,就能看出來,現在的博米圍棋大師確實已經到達了一個相當厲害的水平。