讓人工智能(AI)去做SAT(學術能力評估測驗,俗稱“美國高考”)數(shù)學題,“世界冠軍”能拿幾分?2月6日,上海腦中心/張江實驗室認知智能組與科大訊飛及復旦大學的合作團隊,奪得了SAT數(shù)學問題自動答題競賽世界冠軍,成績約合360分。即滿分800分的考題,綜合準確率為45%。
相較于申請美國名校的中國考生700分以上的高分,AI的表現(xiàn)似乎有些“孱弱”。對此,上海參賽團隊負責人之一、上海腦中心研究員周熠表示,解答SAT試題,尤其是綜合題,需要突破人工智能中自然語言和圖像理解、知識表示和深度推理等多重難關,這對于目前的弱人工智能而言,仍是難以完成的挑戰(zhàn)。“如果能讓人工智能取得SAT高分,將對這項技術的發(fā)展產(chǎn)生重要影響。”
對人工智能而言,參加高難度學業(yè)測試遠比下圍棋困難
2016年,“初級圍棋”(AlphaGo)讓人類棋手鎩羽而歸時,不少人驚呼:人工智能要超越并替代人類了!其實,早在2011年,IBM沃森機器人就在智力問答競賽中擊敗人類,贏得冠軍,成為人工智能發(fā)展史上的一個里程碑。
然而,要應付SAT這類高難度學業(yè)測試,不僅需要強大的計算能力,更需要理解人類思考和信息處理的過程——如果能順利通過SAT,將為人工智能技術發(fā)展樹起新的里程碑。
2011年前后,日本開始嘗試研發(fā)相關人工智能系統(tǒng),目標是讓機器人考上東京大學??上?015年、2016年人工智能兩次都未能考出理想成績,研究者最終選擇放棄,因為他們看不到系統(tǒng)提升的希望——要突破其中的技術難點,實在太困難了!
周熠告訴記者,解答SAT或高考試卷主要有兩大步驟——首先要理解題意,其次是推理和答題。這對人類來說,難度并不太大,可對計算機而言,卻是極度困難的任務,每一步都埋伏著重大挑戰(zhàn),需要理論上的突破以及強大的工程能力作為支撐。
從眾多現(xiàn)有技術看,比如百度搜索,僅能從語法層面匹配字符串,并不能從語義層面理解字符串背后的含義。而在推理層面,當前人工智能在應用上獲得成功的主要技術,比如深度學習和知識圖譜等,只能進行非常簡單的淺層推理,而解答SAT或高考綜合題,往往需要多達20步推理步驟。
理論上有突破,答題準確率遙遙領先其他團隊
根據(jù)機器語義理解方向的當前學術難點和熱點,人工智能權威組織之一——國際語義評測研討會每年會遴選舉辦數(shù)項國際賽事。去年,機器人考試競賽首次入選。
“之所以選擇SAT,是因為它對目前的人工智能技術提出了重要挑戰(zhàn),這些挑戰(zhàn)涵蓋人工智能的很多方面,包括知識表示與推理、機器學習、自然語言理解與圖像理解等。”周熠介紹,自2015年起,在863項目支持下,我國也開始研發(fā)考試人工智能系統(tǒng)。此次奪冠的人工智能“選手”就是幾年攻關的成果。
據(jù)了解,這次比賽共有來自全球各地的132支隊伍參賽,全部采取匿名形式。去年秋季報名后,每支團隊都收到了一份答題規(guī)范和訓練題集,然后利用這些資料開始編寫程序。直至今年1月底各團隊提交參賽程序后,就靜候結果。
2月6日,競賽成績揭榜,上海腦中心/張江實驗室與科大訊飛、復旦大學聯(lián)合團隊斬獲此次比賽的冠軍——答題綜合準確率達45%,比第三名的21%高出兩倍多。
為何上海人工智能團隊能以明顯優(yōu)勢領跑賽事?周熠說,主要有三方面原因。
首先,團隊用自主創(chuàng)新的“斷言邏輯”替代傳統(tǒng)數(shù)理邏輯來表示數(shù)學知識。斷言邏輯不僅表述更簡單、表達能力更強,而且更便于深度推理。
其次,在題意理解方面,團隊結合基于神經(jīng)網(wǎng)絡的深度學習和基于符號計算的專家系統(tǒng)這兩類迥然不同的人工智能方法。
最后,科大訊飛強大的工程實現(xiàn)能力為本次比賽提供了強有力的護航。
研發(fā)考試機器人蘊含顛覆創(chuàng)新機遇,應用空間廣闊
研發(fā)考試機器人,將推進人工智能知識表示與推理、機器學習、自然語言理解、圖像理解、搜索等諸多領域最前沿技術的發(fā)展與融合。而且,一旦獲得成功,這些技術將很快在實際生活中得到廣泛應用,包括智能客服系統(tǒng)、問答系統(tǒng)、對話系統(tǒng)、智能輔助、企業(yè)知識庫、信息抽取等。
“‘初級圍棋’作為棋類應用場景,運用范圍十分狹窄,而與考試機器人相關的技術應用和商業(yè)價值則要廣闊得多。”周熠透露,他們正在開發(fā)能夠自由組合知識點和規(guī)則的新一代考試機器人。未來,團隊希望在考試機器人中引入數(shù)學方法,比如反證、歸納、分情況討論等,這將是一個重大前沿突破??拼笥嶏w正在將此類技術融合到智慧教育系統(tǒng)中,并已取得不錯的進展。
“不過,即使實現(xiàn)了突破,這也僅僅是弱人工智能通向強人工智能路上的小小一步。”周熠特別強調(diào),這些點上的突破尚無法完全解決自然語言理解、常識問題、自動知識獲取等人工智能領域的重大科學問題。
相關鏈接
SAT數(shù)學問題自動答題競賽
SAT數(shù)學問題自動答題競賽是由國際語義評測研討會組織、面向SAT數(shù)學科目的機器自動答題國際競賽。該比賽覆蓋SAT數(shù)學科目的所有類型題目,難度與真實考試水平完全一致,訓練集合來自歷年SAT數(shù)學科目的真題,主要有代數(shù)、應用、幾何三種題型。
關鍵詞: