阿里雲開源大規模視覺語言模型　具備圖文理解能力

阿里雲宣佈推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat，支持中英文圖文輸入，並具備多模態訊息理解能力，目前已在其開源社區魔搭（ModelScope）及AI協作平台Hugging Face上架，促進開源生態發展。

Qwen-VL和Qwen-VL-Chat是支持中英文語言的視覺語言模型，以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基座語言模型研發，除具備中英文圖文識別、描述和問答對話能力，更新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖，問Qwen-VL Chat：「外科在哪層？」「耳鼻喉科去哪層？」，Qwen-VL會根據圖片訊息給出文字回覆。

使用Qwen-VL-Chat的交互展示。

為進一步助力AI技術普惠，全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文檔。對於商業應用需求，月活躍用戶少於1 億的公司可免費使用模型，用戶數超過該量級的企業可向阿里雲申請許可證。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型，在模型架構上引入視覺編碼器，使得模型支持視覺訊號輸入，並通過設計訓練過程，讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448，此前開源的LVLM模型通常僅支持224分辨率。在 Qwen-VL 的基礎上，通義千問團隊使用對齊機制，打造基於LLM的視覺AI助手Qwen-VL-Chat，可讓開發者快速搭建具備多模態能力的對話應用。

在四大類多模態任務（Zero-shot Caption/VQA/DocVQA/Grounding）的標準英文測評中，Qwen-VL取得同等尺寸開源VL模型中的最好效果。為了測試模型的多模態對話能力，通義千問團隊構建一套基於GPT-4打分機制的測試集「試金石」，對Qwen-VL-Chat及其他模型進行對比測試，Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

8月初，阿里雲開源通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat。不到一個月，兩個模型在開源社區的累計下載量已突破40萬。

如欲了解更多Qwen-VL及Qwen-VL-Chat詳情，可瀏覽ModelScope 、HuggingFace及GitHub的模型網頁，以及模型的技術論文。

立即訂閱阿里足跡，緊貼阿里巴巴集團最新發展動向，通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢。

ModelScope Qwen-VL Qwen-VL-Chat 阿里雲

2023年08月16日 |
科技創新

阿里達摩院發佈癌症通用模型　可輔助診斷8種主流癌症

2023年09月07日 |
科技創新

企業協作超級應用釘釘　開啟敏捷高效工作方式

阿里雲開源大規模視覺語言模型 具備圖文理解能力

阿里雲開源大規模視覺語言模型 具備圖文理解能力

阿里雲開源大規模視覺語言模型　具備圖文理解能力

阿里雲開源大規模視覺語言模型　具備圖文理解能力