人民網
人民網>>棋牌

摸清專業和需求,重慶提供三千國企崗

“阿爾法狗”為什麼厲害(關注·關注“人機大戰”(上))

本報記者 吳月輝
2016年03月21日07:14 | 來源:人民網-人民日報
小字號
原標題:“阿爾法狗”為什麼厲害(關注·關注“人機大戰”(上))

谷歌的圍棋人工智能程序和人類圍棋冠軍之間的比賽,堪稱人工智能發展的一個重要裡程碑,也讓全世界的目光聚焦在人工智能這個熱門科技領域。谷歌的人工智能程序是怎樣贏了人類?人工智能對人類來說到底意味著什麼,會帶來什麼?它會不會有一天在智能上也超過人類?

本版近期推出“關注‘人機大戰’”系列報道上下篇,嘗試揭開谷歌圍棋人工智能程序贏得比賽的秘密,並分享相關專家對人工智能未來前景的預測。

——編者

從3月9日開始,一場人與機器的圍棋大戰吸引了全世界的目光。這場大戰在韓國首爾上演,一直持續到15日,共5輪。大戰之所以舉世矚目,是因為對戰的雙方是世界圍棋冠軍李世石與圍棋人工智能程序AlphaGo。令人驚嘆的是,整個比賽過程中,AlphaGo的表現都堪稱完美,最終以4:1擊敗李世石。

這個戰勝人類世界圍棋冠軍的AlphaGo程序到底是何方神聖?它為什麼如此厲害?

“阿爾法狗”是什麼?

一款人機對弈的圍棋程序,棋藝不是開發者教給它的,而是“自學成才”

AlphaGo程序是美國谷歌公司旗下DeepMind團隊開發的一款人機對弈的圍棋程序,被中國棋迷們戲稱為“阿爾法狗”。游戲是人工智能最初開發的主要陣地之一,比如博弈游戲就要求人工智能更聰明、更靈活,用更接近人類的思考方式解決問題。

1997年,IBM的“深藍”計算機首次擊敗國際象棋世界冠軍卡斯帕羅夫,成為人工智能戰勝人類棋手的第一個標志性事件。此后近20年間,計算機在諸多領域的智力游戲中都擊敗過人類。但在圍棋領域,人工智能卻始終難以逾越人類棋手。直到2015年,由谷歌開發的這款“阿爾法狗”程序才首次戰勝歐洲圍棋冠軍樊麾。

為什麼對於人工智能而言,圍棋的難度這麼大?中國自動化協會副理事長、秘書長王飛躍說:“首先,圍棋的可能性太多。圍棋每一步的可能下法非常多,棋手起手時就有19×19=361種落子選擇。一局150回合的圍棋可能出現的局面多達10170種。其次,是規律太微妙,在某種程度上落子選擇依靠的是經驗積累而形成的直覺。此外,在圍棋的棋局中,計算機很難分辨當下棋局的優勢方和弱勢方。因此,圍棋挑戰被稱作人工智能的‘阿波羅計劃’。”

既然圍棋對於人工智能來說這麼難攻克,那麼對於AlphaGo程序的設計者來說,是否也需要具備很高的圍棋水平?

“這個不需要,設計者們隻需要懂得圍棋的基本規則即可。AlphaGo背后是一群杰出的計算機科學家,確切地說,是機器學習領域的專家。科學家利用神經網絡算法,將棋類專家的比賽記錄輸入給計算機,並讓計算機自己與自己進行比賽,在這個過程中不斷學習訓練。某種程度上可以這麼說,AlphaGo的棋藝不是開發者教給它的,而是‘自學成才’的。”王飛躍說。

“阿爾法狗”怎樣下棋?

用兩個神經網絡大腦——策略網絡和估值網絡,像人類棋手一樣判斷當前局面,推斷未來局面

AlphaGo到底是如何下棋的呢?

AlphaGo通過蒙特卡洛樹搜索算法和兩個深度神經網絡合作來完成下棋。在與李世石對陣之前,谷歌首先用人類對弈的近3000萬種走法來訓練“阿爾法狗”的神經網絡,讓它學會預測人類專業棋手怎麼落子。然后更進一步,讓AlphaGo自己跟自己下棋,從而又產生規模龐大的全新的棋譜。谷歌工程師曾宣稱AlphaGo每天可以嘗試百萬量級的走法。

“它們的任務在於合作‘挑選’出那些比較有前途的棋步,拋棄明顯的差棋,從而將計算量控制在計算機可以完成的范圍內。在本質上,這和人類棋手所做的是一樣的。”中國科學院自動化研究所博士研究生劉加奇說。

什麼是蒙特卡洛搜索樹算法?

有專家曾通俗地解釋:假如籃子裡有1000個蘋果,讓你每次閉著眼睛找一個最大的,可以不限制挑選次數。於是,你可以閉著眼隨機拿了一個,然后再隨機拿一個與第一個比,留下大的,再隨機拿一個,與前次留下的比較,又可以留下大的。循環往復這樣,拿的次數越多,挑出最大蘋果的可能性也就越大,但除非你把1000個蘋果都挑一遍,否則你無法肯定最終挑出來的就是最大的一個。這就是蒙特卡洛搜索,它被廣泛用於科學和工程研究的算法仿真中。

“傳統的棋類軟件,一般採用暴力搜索,包括深藍計算機,它是對所有可能結果建立搜索樹(每個結果是樹上的一個果實),根據需要進行遍歷搜索。這種方法在象棋、跳棋等方面還具有一定可實現性,但對於圍棋就無法實現,因為圍棋橫豎各19條線,落子的可能性大到計算機無法構建這棵樹(果子太多了)來實現遍歷搜索。”中國科學院自動化研究所研究員易建強說,“而AlphaGo採用了很聰明的方法,完美解決了這個問題。它利用深度學習的方法降低了搜索樹的復雜性,搜索空間得到有效降低。比如,策略網絡負責指揮計算機搜索出更像人類高手該落子的位置,而估值網絡負責指揮計算機搜索出后續更有可能獲勝的一個落子位置。”

劉加奇進一步解釋,深度神經網絡最基礎的一個單元就類似我們人類大腦的神經元,很多層連接起來就好比是人類大腦的神經網絡。AlphaGo的兩個神經網絡“大腦”分別是策略網絡和估值網絡。

“策略網絡主要是用來生成落子策略的。在下棋的過程中,它不是考慮自己應該怎麼下,而是想人類的高手會怎麼下。也就是說,它會根據輸入棋盤當前的一個狀態,預測人類下一步棋會下在哪兒,提出最符合人類思維的幾種可行的下法。”

然而,策略網絡並不知道自己要下出的這步棋到底下得好還是不好,它隻知道這步棋是否跟人類下的是一樣的,這時候就需要估值網絡來發揮作用了。

劉加奇說:“估值網絡會為各個可行的下法評估整個盤面的情況,然后給出一個‘勝率’。這些值會反饋到蒙特卡洛樹搜索算法中,通過反復如上過程推演出‘勝率’最高的走法。蒙特卡洛樹搜索算法決定了策略網絡僅會在‘勝率’較高的地方繼續推演,這樣就可以拋棄某些路線,不用一條道算到黑。”

AlphaGo利用這兩個工具來分析局面,判斷每種下子策略的優劣,就像人類棋手會判斷當前局面以及推斷未來的局面一樣。在利用蒙特卡洛樹搜索算法分析了比如未來20步的情況下,就能判斷在哪裡下子贏的概率會高。

人工智能會對人類造成威脅嗎?

目前並不會對人類造成威脅,人工智能技術為人類提供了解決問題的強大工具

專家們表示,AlphaGo成功的秘訣就是讓計算機知道如何完成目標並通過經驗來提高,而不是每項任務都通過手寫指令來完成。

“這個秘訣實際上就是深度學習。它是指多層的人工神經網絡和訓練它的方法。簡單通俗地講就是指計算機通過深度神經網絡,模擬人腦的機制來學習、判斷、決策。近年來,這種方法已被應用於許多領域,比如人臉識別、語音識別等等,總之它在近期和未來都將是人工智能領域的一個熱點研究方向。”易建強說。

此次AlphaGo的勝利被業界認為是人工智能發展當中的一個重要裡程碑。

“它的一些算法的機理可以運用到其它領域,去解決一些對抗性的問題,甚至還可以應用到以后的商業和金融交易當中,或者是城市的交通管理等方面。”劉加奇說。

很多人都擔心人工智能的發展會威脅到人類的生存,這次AlphaGo能在典型的反映人類智慧的比賽中打敗人類,則更加重了人們的擔憂。

對此,記者採訪的幾位專家都表示人工智能並不會對人類造成威脅。他們認為,人工智能技術為我們提供了強大工具,有助於專家更快做出突破,提高我們應對那些亟待解決的全球性難題的能力。

“我們需要機器學習來幫助處理復雜問題,預測未知,支持我們實現以往不可能的目標。”王飛躍說。

“當然相比圍棋,城市擁堵的治理等問題難度更大。因為圍棋的數據結構是一樣和固定的,而我們生活當中很多的數據結構並不統一,比如城市擁堵方面的大數據結構,因此讓計算機從這些非結構數據中獲取知識是非常難的,要實現還需要很長的時間。”易建強說。

(責編:楊磊、胡雪蓉)

分享讓更多人看到

返回頂部