Qwen3.5:為高效率而生的原生多模態模型

阿里巴巴今日正式發布 Qwen3.5 系列,並開源該系列的首款模型——Qwen3.5-397B-A17B(亦稱「Qwen3.5-Plus」)。這是一款原生多模態基礎模型,在推理、編程、智能體能力及多模態理解方面均展現出卓越性能。面向智能體驅動的 AI 時代,Qwen3.5 旨在幫助開發者及企業以同等算力實現更多任務及更高效開發,為模型的單位推理成本樹立全新標杆。

Qwen3.5 在訓練過程中使用了數萬億混合視覺和語言的數據,涵蓋多語言文本、圖像、影片、STEM(科學、技術、工程、數學)及推理數據,讓模型具備原生多模態能力,可處理文本、圖像及影片輸入,並生成文本輸出。其架構融合線性注意力機制及稀疏混合專家(MoE)設計,在不犧牲能力的前提下顯著降低計算需求,實現卓越的推理效率。

Qwen3.5-397B-A17B 支援 201 種語言及方言(相較 Qwen3 系列的 119 種大幅提升),覆蓋南亞、大洋洲及非洲等地區的低資源語言,如夏威夷語、斐濟語及尼日爾-剛果語系語言等。該模型在語言理解及推理、代碼生成、智能體工作流、圖像及影片理解以及 GUI 交互等多個基準測試中均表現優異,在通用性及性能方面均可與前沿領先模型相媲美。

Qwen3.5-397B-A17B 在廣泛的基準測試中均表現出色

Qwen3.5-397B-A17B 憑藉其架構設計實現效率躍升。該模型基於 Qwen3-Next 架構構建,採用更高稀疏度的混合專家設計、混合注意力機制、穩定性優化及多 token 預測技術,推理速度及計算成本顯著優化。Qwen3.5-397B-A17B 性能可媲美參數規模超萬億的 Qwen3-Max 模型,而內部測試顯示其部署成本實現大幅降低。在長上下文任務(32,000 token)中,Qwen3.5-397B-A17B 的解碼吞吐量達到 Qwen3-Max 的 8.6 倍,在保持能力不減的前提下實現重大效率突破。

Qwen3.5-397B-A17B 實現了強大的解碼能力,展現出顯著的效率提升

值得一提的是,Qwen3.5 新增多項先進的視覺智能體能力,為現實世界中的多模態智能體應用奠定堅實基礎:

  • 作為生產力自動化的視覺智能體:Qwen3.5 可自主操作智能手機及電腦以簡化工作流程。作為移動智能體,它能根據自然語言指令在應用內執行操作,並實現跨應用的流暢交互;作為桌面智能體,可處理多步驟、長週期的桌面工作流,賦能辦公自動化。
  • 增強的視覺推理能力:相較前代 Qwen3-VL,Qwen3.5 在視覺推理方面實現顯著飛躍,尤其在科學問題求解等任務中表現突出。透過融合高精度視覺感知及強大語言推理能力,該模型可執行複雜的多模態推理及自我反思,為實用型多模態智能體應用提供堅實基礎。
  • 長影片理解能力(最長2 小時):Qwen3.5 能夠捕捉影片內容中的時序動態,支援多步驟推理。原生支援最長兩小時的影片輸入,在長影片分析、摘要生成及洞察提取等任務中表現優異。
  • 視覺編程:從草圖到代碼:透過打通視覺理解及代碼生成,Qwen3.5 可借助圖像搜尋及生成工具,將手繪 UI 草圖轉化為功能完備的前端代碼,降低開發門檻,加速迭代週期。

為支撐智能體工作流,Qwen3.5 還引入可擴展的強化學習(RL)框架,全面支援純文本、多模態及多輪交互場景下的模型訓練。該框架可將端到端模型訓練速度提升 3 至 5 倍,原生支援百萬級智能體框架及環境,實現更穩定的多輪交互(對完成智能體任務至關重要),並提升模型泛化能力。

Qwen3.5-397B-A17B 現已開源,可在 Hugging Face、GitHub 及 ModelScope 平台獲取,亦可透過 Qwen Chat 體驗,或經由阿里雲模型開發平台「百煉」調用 API 使用。憑藉具競爭力的 token 定價,Qwen3.5 旨在為全球開發者構建 AI 應用提供卓越的性價比。更多 Qwen3.5 系列模型將於未來數週陸續開源。

截至目前,阿里巴巴已開源超過 400 個 千問系列模型,涵蓋多種參數規模及多模態能力(包括文本、圖像、音频及影片)。這些模型累計下載量已突破十億次,全球開發者在千問大模型基礎上創建了超過 20 萬個衍生模型。

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢。