達摩院人工智能技術活化古籍風貌與古人神韻

杭州圖書館與達摩院合作發起「古藉活起來」項目,利用達摩院的AI技術活化館藏文獻、古畫及人物畫像。

「明月幾時有,把酒問青天。」北宋文學家蘇軾在丙辰年中秋帶醉抒懷,並懷著對弟弟蘇轍的思念,作下這篇千古傳誦的作品《水調歌頭》。距今近1,000年前的中秋景象,以往只能憑空想象,今天卻能借助人工智能(AI)的技術,立體地感受古籍風貌與古人神韻。

今年9月21日中秋節,杭州圖書館與達摩院合作發起「古藉活起來」項目,利用達摩院的AI技術,首次將該館館藏文獻《宋畫全集》的《韓熙載夜宴圖》、《閬苑女仙圖》等十多幅古畫,以及館藏古籍《紅樓夢》中的人物畫像活化起來,讓這些古籍古畫中的人物經過AI算法處理後能夠開口、眨眼,甚至朗誦中秋題材相關的詩詞,例如《水調歌頭》、《念奴嬌‧中秋》等等。

杭州圖書館副館長梁亮說:「通過AI技術,這些古代人物肖像的五官及形象都會隨著朗誦的節奏而變化,同時又讓(杭州)市民參與配音,形成市場參與共同傳播的一個文化活動,將傳統的古藉文獻生動地展現出來。」

該AI技術由達摩院的視覺實驗室團隊研發,團隊在國際頂級賽事斬獲多項冠軍。此次,達摩院針對古籍和古畫的特點,在視頻內容算法上進一步實現創新,不僅保持古籍古畫原有的古風古韻,同時也讓畫中的人物具備逼真的五官動作與表情。

達摩院人工智能算法工程師唐銘謙表示:「通過AI技術讓古籍古畫『活』起來,以一種新的方式呈現寶貴的歷史資料,這是一次科技和文物領域的碰撞和交流,未來AI在文物保護和典籍傳承上發揮更大的作用。」

達摩院針對古籍和古畫的特點,在視頻內容算法上進一步實現創新,不僅保持古籍古畫原有的古風古韻,同時也讓畫中的人物具備逼真的五官動作與表情。

達摩院團隊通過技術提升古籍之中的人臉分辨率、模型容量及視頻清晰度,同時分析人物的頭部動作,保持古籍原有的古風古韻,以及具備逼真的五官動作及表情。

活化古藉兩關鍵:分析古畫人像、視頻生成

據達摩院透露,「古籍活起來」項目主要通過「靜態典籍圖像+朗誦視頻」的方式活化古藉,當中涉及兩項AI算法核心技術:人臉關鍵點分析、視頻生成。具體可從三個步驟了解:

  1. 對於靜態的古籍圖片,首先需要從古籍圖畫中找到古代人物的臉部位置,然後定位到相應的關鍵點,例如人物嘴型、表情、眼睛及鼻子的局部動作等;
  2. 對朗誦視頻中的朗誦者建立人像動態模組,在視頻的每一幀檢測及追蹤上述關鍵點,繼而記錄這些關鍵點的時間上和空間上的動態變化;
  3. 將靜態古籍圖片及人臉關鍵點等資訊和朗誦視頻的關鍵點序列,輸入到已經預先訓練好的AI模型,最終生成目標視頻。

這三個步驟看似簡單直接,技術含量卻是大有乾坤,達摩院分析這個項目的最大挑戰在於兩方面。

首先是活化後的清晰度,要提高「古籍活起來」視頻的觀感,就必須既要保持古籍原有的古風古韻,也要具備逼真的五官動作、表情等要素。為此,達摩院團隊嘗試將生成古藉圖畫中人臉的分辨率提升到512*512像素,同時嘗試增加主幹模型的複雜度,用以提高模型容量及視頻清晰度。此外,由於古籍圖片有許多的側臉、頭部歪著等案例,故團隊分析數十萬視頻的內容,既要保證數據的清晰度,也要保證頭部姿態的豐富度,以增強算法在典籍圖像上的穩健度。

其次是動態敏銳度的問題,朗誦者頭部運動過大容易導致生成視頻變得模糊,從而會引起明顯的邊際效應,使得視頻看起來並不協調,影響整個視頻的觀感。為此,達摩院團隊設計出EAN (Edge-aware Attention Network)模型,平衡各方權重來調整朗誦視頻的局部運動模式,越靠近外側邊界的地方,權值越小,這樣能夠讓視頻和原圖具有比較高的契合度,讓頭部的運動軌跡平滑過渡,進而減低對朗誦視頻的干擾。

達摩院人工智能團隊補充,未來會繼續將AI技術應用到更多文物的保護和傳承中,例如用視頻的形式還原《清明上河圖》,進一步描繪的當時的生活情景。

立即訂閱阿里足,緊貼阿里巴巴集團最新發展動向,通過新聞故事專題文章了解創新科技電子商務及智能物興議題的嶄新趨勢。

人工智能 達摩院