達摩院發佈中文社區最大規模語言模型PLUG 強化文案創作能力

預訓練模型近年成為人工智能領域的新趨勢,阿里巴巴達摩院近期發佈中文社區最大規模的預訓練語言模型PLUG(Pre-training for Language Understanding and Generation),旨在通過超大模型的能力,大幅提升中文語言水平在各類任務中的表現,強化作家及撰稿員等真人文案創作能力。

預訓練的原理是通過大量無標註的語言文本進行語言模型訓練,進而綜合一套模型參數,根據指令調整現有語言模型基礎,在自然語言處理((Natural Language Processing,NLP)及人工智能(AI)標記等領域上的效果顯著,而阿里巴巴集團則是中國最早投入「預訓練模型」研究的科技公司之一。

此外,達摩院宣佈近期將會開源阿里巴巴深度語言模型體系大部分重要模型,阿里巴巴達摩院語言技術實驗室負責人司羅說:「達摩院NLP團隊將進一步攻克自然語言處理領域科研難題,完善中文及跨語言人工智能基礎設施,讓AI『沒有難懂的語言』,探索通用人工智能之路。」

預訓練語言模型PLUG集語言理解與生成能力於一身,在小說創作、詩歌生成、智能問答等長篇文案生成的領域均有突出表現。

簡單而言,預訓練語言模型可以幫助機器像人類一樣理解文本,並從大規模文本中學習詞語和詞語之間搭配,以及句子與段落的上文下理應用知識。目前相關技術已經在閱讀理解、機器翻譯、人機交互等場景應用。

達摩院表示,最新發佈的PLUG參數規模達270億,集語言理解與生成能力於一身,在小說創作、詩歌生成、智能問答等長篇文案生成的領域有突出表現。PLUG採用1TB以上高質量中文文本訓練數據,涵蓋新聞、小說、詩歌、問答等廣泛類型及領域,其模型訓練依托阿里云自研的高性能人工智能計算集群EFLOPS,而PLUG將會擴大參數規模至2,000億級,進一步提升文本生成質量。

有趣的是,每次通過人工智能(AI)生成的文案內容都會不同,以下是PLUG續寫小說、散文、詩歌及自由創作文案,再經由人工挑選的例子:

小說仿寫

上文:黛玉只就寶玉手中看了一看,便問道:「還是單送我一個人的,還是別的姑娘們都有呢?」周瑞家的道:「各位都有了,這兩枝是姑娘的了。」

AI續寫:黛玉卻想道:「我如今是個孤女,他們送的那些東西,還有甚麼可看的。」因此自己心下不樂,只是獨自一個人在那裡擺弄那些事物。

散文仿寫

上文:我看見他戴著黑布小帽,穿著黑布大馬褂,深青布棉袍,蹣跚地走到鐵道邊,慢慢探身下去,尚不大難。可是他穿過鐵道,要爬上那邊月台,就不容易了。他用兩手攀著上面,兩腳再向上縮;他肥胖的身子向左微傾,顯出努力的樣子。

AI續寫:他爬不上去,就彎下腰去,用兩手扶著鐵軌。我看見他的兩手在空中揮著,可是他的頭卻低著,臉在流汗。汗珠從額頭上滲出來,滴在草葉子上,落在鐵軌上,融成一片小小的水洼。我想我的心和鐵軌之間產生了很大的距離。

詩歌生成

上文:人閒桂花落,夜靜春山空。月出驚山鳥……

AI續寫:林深聞杜鵑。誰家竹徑深,何處禪房幽。山光映疏影,水色接平波。千載空悠哉,萬載自逍遙。松間風入耳,泉眼月浮光。

自由創作

上文:30年後,人類走出了太陽系,發現了一個被冰川覆蓋的星球……

AI續寫:這裡居住著一個神秘而強大的部族。他們在這裡建立了一個叫做神川神殿的國度。30年後,一個叫做冰川神王的部族在一次探險中發現了這個星球上唯一的一塊大陸冰川谷。於是,他們派出了10幾名精英去尋找冰川谷。經過艱苦的探索,他們終於在冰川谷的冰川深處發現了一個巨大的冰穴,冰穴裡面有一個小男孩和他的妹妹。他們被困在裡面無法脫身。於是,他們便一起出發去尋找出路。歷經了九死一生的探索,他們來到了一座神秘的冰山下。冰山下面是一處湖泊。

PLUG刷新中文語言理解評測基準分類排行榜紀錄

自去年AI研究智庫OpenAI發佈超大規模預訓練語言模型「GPT-3」後,中文領域的同類模型訓練進程備受關注。與「GPT-3」類似,達摩院最新發佈的PLUG有望廣泛應用於中文的文本生成領域,成為萬能寫作工具。值得留意是,預訓練語言模型一般擁有極強的通用性,在科研領域上一直被視為AI時代的新型基建之一。

對比「GPT-3」,PLUG集成達摩院自行研發的「語言理解」及「語言生成」雙模型,通過構建輸入文本雙向理解能力,顯著提升輸出文本的相關性。在語言理解任務上,PLUG以80.614分刷新業內權威的中文語言理解評測基準CLUE分類排行榜紀錄,排名僅次於人類;在語言生成任務上,PLUG多項應用數據較業內最佳水平提升8%以上。

阿里巴巴達摩院最新發佈的中文社區最大規模的預訓練語言模型PLUG,其語言理解任務的評分刷新中文語言理解評測基準CLUE分類排行榜紀錄(紅框示),排名僅次於人類。數據截至2021年4月19日。

去年初發佈的2020年達摩院10大科技趨勢中便曾提及,AI正在從感知智能向認知智能演進,在聽、說、看的領域達到甚至超越人類水準,而多模態的預訓練模型正是實現感知智能跨越至認知智能的關鍵基礎。

今年1月中,阿里巴巴集團、清華大學、中國人民大學、中國科學院等一眾科研智庫研究團隊聯合發佈面向認知智能而開發的超大規模新型預訓練模型「文匯」,讓AI能夠自動學習大量語言文字和圖像數據,繼而學習專業領域知識。
延伸閱讀:中國最大預訓練AI模型「文匯」面世 實現AI作詩賦詞

立即訂閱阿里足,緊貼阿里巴巴集團最新發展動向,通過新聞故事專題文章了解創新科技電子商務及智能物興議題的嶄新趨勢。

AI NLP PLUG 人工智能 自然語言處理 達摩院 阿里巴巴