阿里巴巴開源數字人視頻生成模型

阿里巴巴正式發佈並開源全新的Wan2.2-S2V語音驅動生視頻(Speech-to-Video)模型。該創新工具專為數字人視頻創作而開發,可以人像圖片生成具備電影級品質的主體形象,並支持說話、唱歌與表演等動作。

該新模型是阿里巴巴 Wan2.2 視頻生成系列的一員,透過單張圖片及一段音頻,即可生成高品質的動畫視頻。

Wan2.2-S2V 提供靈活多樣的人物動畫能力,支持肖像、半身以及全身等多種畫幅形式的視頻創作。模型可依據文本指引動態生成人物動作與場景元素,協助專業內容創作者捕捉精準的視覺表現,以滿足特定敘事與設計需求。

該模型運用先進的語音驅動動畫技術,呈現栩栩如生的人物動態,從自然對話到音樂演奏均能流暢展現,並可於同一場景中無縫處理多個角色。創作者還可透過語音音頻驅動生動的動畫形態,並支持多樣化的主體形象,包括卡通、動物以及風格化的形象。

為滿足專業內容創作者的多元需求,該技術靈活支持 480P 與 720P的解像度輸出,確保生成的高質畫面符合多樣化的專業與創意標準,既適用於社交媒體內容,也適合專業展示。


技術創新增強角色動態並降低算力消耗

Wan2.2-S2V 超越傳統數字人說話動畫,結合文本引導的全局運動控制與音頻驅動的細顆粒度局部運動,讓角色在多樣化和具挑戰性的場景中依然能展現自然而富有表現力的角色動態。

另一項重要突破在於模型創新的幀處理技術,可將任意長度的歷史幀壓縮為單一且緊湊的隱層特徵 ,大幅降低計算消耗,並成功實現長視頻的穩定生成,從而解決長時段動畫內容製作中的關鍵挑戰。

模型的先進能力有賴完善的模型訓練方法。阿里巴巴研究團隊專門針對影視製作場景構建了大規模的音視頻數據集,並通過混合並行訓練,使 Wan2.2-S2V 能靈活支持不同格式的視頻生成 ,從豎屏短視頻到傳統橫屏影視作品均可勝任。

用戶可在Hugging Face、GitHub以及阿里雲開源社區ModelScope下載Wan2.2-S2V。作為全球開源生態的重要貢獻者,阿里巴巴已於 2025 年 2 月開源 Wan2.1 系列模型,並於同年 7 月開源 Wan2.2 系列模型。至今Wan 系列模型在 Hugging Face 與 ModelScope 平台的總下載量已突破 690 萬次。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢。