達摩院AI模型刷新讀圖會意全球紀錄 歷來首次超越人類基準

這些問題看似簡單,由左至右的答案分別為暹羅貓、紐約洋基隊、婚禮。讀圖會意是人類生活及溝通的基本條件,但當我們回答1,000條同類問題時,或因眼花撩亂和認知失誤而答錯數十題甚至更多。

由阿里巴巴達摩院機器智能技術實驗室打造的深度語言模型體系AliceMind,最近在110萬條讀圖會意的問題中,憑藉超高答題準確率而傲視全球,準確率甚至高於人類基準,歷來首見。

根據國際機器視覺問答平台VQA(Visual Question Answering)挑戰賽的測試,由阿里巴巴達摩院AliceMind團隊組成的人工智能(AI)模型在測試中以81.26%的準確率,刷新讀圖會意領域的全球紀錄,準確率超越人類基準綫80.83%。

2021年VQA挑戰賽的測試成績。

VQA取得高準確率意味甚麼?

達摩院語言技術實驗室負責人司羅曾表示,人工智能分為計算智能、感知智能、認知智能及創造智能4個層次。VQA的測試內容屬於認知智能部份,其應用場景廣泛,包括圖片及文字閱讀、視障人士問答、醫療問診、智能駕駛及虛擬主播等領域,而AliceMind在視覺與文本的「多模態」理解及推理上,測試分數媲美人類認知水平,也意味著達摩院的人工智能技術邁出關鍵一步。

事實上,VQA技術已經在阿里巴巴生態體系中應用,例如商品的圖文資訊理解、直播視頻互動、智能客服等場景。

現時數以萬計的淘寶天貓商家已經開通「店小蜜」客服的視覺問答功能,用戶輸入問題後,模型會結合商品詳情頁視覺特徵和用戶問題來給出答案。「店小蜜」通過AI來提升提問解決率,改善買家體驗,同時減輕商家工作配置。另一方面,VQA技術也協助解決直播中的「多模態」語義問答疑難,從而提升直播間的智能化水平。

除了淘寶天貓,盒馬鮮生與考拉海購的客服場景、閑魚的圖文同款匹配場景、阿里速賣通(AliExpress)的圖文理解場景也已經接入VQA能力。

深度語言模型體系AliceMind,由阿里巴巴達摩院機器智能技術實驗室打造。

VQA挑戰賽有多艱難?

宋代詩人張舜民曾道「詩是無形畫,畫是有形詩」,以描繪語言與視覺的相通之處。讀圖會意對人類而言是基本的生活能力,對AI卻是一項高難度的認知任務。

過去10年,AI技術在文本理解及視覺理解等「單模態」理解領域突飛猛進,AI模型在多個任務及技術上也達到了人類頂尖水平,例如益智活動圍棋,強化學習智能體「AlphaGo」於2016年接連擊敗數位世界頂尖棋手。

然而,在VQA這個涉及視覺與文本的「多模態」的高階認知任務上,過往AI的讀圖會意成績始終未及人類基準線。

為鼓勵各地科研團隊攻克AI「多模態」理解的難題,全球計算機視覺頂會CVPR(Conference on Computer Vision and Pattern Recognition)從2015年起連續6年舉辦VQA挑戰賽,吸引來自各地的互聯網企業、高等學府及科研單位參與,合力打造國際上規模最大、認可度最高的VQA數據集,每年挑戰賽包含超過20萬張真實照片,共110萬條題目。

在測試中,參賽團隊的AI模型需要融合複雜的電腦視覺及自然語言技術,首先掃描及判斷所有圖像資訊,結合對文本問題的理解,利用「多模態」技術學習圖文的關聯性,最後根據常識及推理回答問題。

今年6月,阿里巴巴達摩院先在2021年度的VQA挑戰賽的55隊申請隊伍中奪冠,其後在8月更新測試成績後,達摩院再以81.26%的準確率刷新VQA排行榜的全球紀錄,高於80.83%的人類基準線。

優秀成績的背後,達摩院的自然語言處理(NLP)及視覺團隊有系統地設計AI視覺與文本推理體系,融合大量算法創新,包括多樣性的視覺特徵表示、「多模態」預訓練模型、「跨模態」語義融合和對齊技術、知識驅動的多技能AI集成等,讓AI的讀圖會意更上一層樓。

早在2018年,達摩院曾在史丹福大學發起的大規模閱讀理解挑戰賽SQuAD(Stanford Question Answering Dataset)歷史性地讓機器閱讀理解首次超越人類基準線,瞬間成為海內外科技界的討論話題。

今年初至今,達摩院在AI技術領域動作頻頻,除了發佈中文社區最大規模中文語言模型PLUG強化文案創作能力,也發佈了中國科技公司中首個超大規模多模態預訓練模型M6。此外,達摩院已經開源歷經3年打造的深度語言模型體系AliceMind,其曾登頂 GLUE等6大國際權威的NLP排行榜。

【相關新聞及平台連結】
達摩院發佈中文社區最大規模語言模型PLUG 強化文案創作能力(2021年5月)
達摩院技術助海外中文古籍數字化 20萬頁古籍AI識別準確率97.5%(2021年5月)
達摩院AliceMind開源平台
阿里雲X達摩院自然語言處理開放平台—VQA答題例子

立即訂閱阿里足,緊貼阿里巴巴集團最新發展動向,通過新聞故事專題文章了解創新科技電子商務及智能物興議題的嶄新趨勢。

達摩院