【AlphaGo】連挫李世石、柯潔後還要更強?圍棋 AI自學突破新境界

今年 5 月擊敗中國棋王柯潔後,Google 旗下的 DeepMind 圍棋 AI「AlphaGo」宣佈將不再參與圍棋比賽,同時會在今年稍晚發表最後一篇論文。而稍早,該篇稱作「不以人類知識稱霸圍棋」的論文也已經上線,讓外界一窺 AlphaGo「退出江湖」後做了哪些事。

171019-31724-1

該篇論文指出,新的「AlphaGo」選擇從零開始,不從人類對手或指導上學習圍棋新知,只單純以自家演算法自訓提高落子水準。最終,這個被稱作「AlphaGo Zero」的最終版,只自學了 3 天就擊敗當初戰勝李世石的版本,21 天後來到能與柯潔對戰版打平的程度,40 天後擊敗柯潔版 AlphaGo,成為史上最強的下棋 AI。

過程中,AlphaGo Zero 是透過不斷與自己對弈來提高棋力。在擊敗李世石版(AlphaGo Lee)的 3 天自訓期間,AlphaGo Zero 一共和自己對弈了 490 萬次,並從中發現人類花上數千年累積的圍棋模型與知識,以及其他人類沒有發現的策略。

AlphaGo Zero 也不再和以前的版本一樣,透過策略網絡(Policy Network)來決定落子位置,然後用價值網絡(Value Network)判斷勝負,而是把兩者整合到同一個神經網絡,從而提高自訓效率。除了演算法變得更精進,AlphaGo Zero 的能耗也變得更高效節能。

或許特別的是,AlphaGo Zero 證實 AI 不見得需要吸納大量資料,在遊戲規則明確的前提下,也可以靠優異的演算法自訓成為某個領域的專家。值得注意的是,由於 AlphaGo Zero 僅是專為圍棋對弈而設的 AI,它的成就不見得能反映在其他領域。「AI 取代人類」、或是讓 AI 為人類提供更好的服務,仍然有著長遠的發展道路。