阿里巴巴達摩院推出AI語言大模型SeaLLMs 支持東南亞地區語言文化多樣性

阿里巴巴達摩院宣佈推出專為東南亞市場打造的開創性人工智能AI語言大模型SeaLLMs,包括130億參數和70億參數兩個版本,滿足東南亞地區多樣性語言及文化需求。

該系列模型在包容性方面實現了技術飛躍,除中英文以外,支持東南亞地區大多數官方語言,如越南語、印尼語、泰語、馬來語、高棉語、老撾語、他加祿語和緬甸語等。會話模型 SeaLLM-chat對各個地區的獨特文化結構都有較強的適應性,符合當地的文化習俗、風格偏好和法律框架,可以為企業在東南亞市場開展業務時充當聊天機器人助手,發揮重要作用。SeaLLMs目前已經在 Hugging Face上開源,並發佈了模型權重,可供研究和商業使用。

阿里巴巴達摩院語言技術實驗室主任邴立東表示:「我們一直在努力彌合技術鴻溝。很高興推出SeaLLMs,這是一系列不僅能理解當地語言,還能包容東南亞豐富文化的人工智能模型。這項創新將推動人工智能的普惠化,為歷來在數字領域代表性不足的群體賦能。」

阿里巴巴在多語言人工智能研究領域的長期合作夥伴、南洋理工大學計算機科學與工程學院助理教授 Luu Anh Tuan亦有同感。他分享道:「阿里巴巴在創建多語言LLM方面取得令人印象深刻的進展,為使用中英文以外語言的群體帶來新機遇。隨著 SeaLLMs的推出,阿里巴巴在倡導包容性技術方面的努力達到了一個新的里程碑。」

SeaLLMs基礎模型在包含東南亞語言的多樣化且高質量的數據集上進行了預訓練,確保對相關語言及當地語境有細緻入微的理解。以此為基礎,會話模型SeaLLM-chat又通過專門構造的多語言數據集進行了微調以實現指令跟隨的能力。因此,基於這些模型的聊天機器人助手不僅能理解這些語言,還能尊重並準確反映這些語言在該地區的文化背景,如社會規範和習俗、風格偏好和法律因素。

SeaLLMs的一個顯著技術優勢是其效率,在處理非拉丁語系語言時尤為顯著。對於緬甸語、高棉語、老撾語和泰語等非拉丁語系語言,與 ChatGPT等其他模型相比,SeaLLMs可解釋和處理長達9倍的文本。這意味著它可以用來解決更加複雜的任務、擁有更低的運行和計算成本,以及更少的碳排放足跡。

此外,SeaLLM-13B擁有130億參數,在各種評測任務包括語言能力、知識相關和安全任務中都勝過同類開源模型,表現出了最優性能。在通過M3Exam基準(一個由從小學到大學入學考試的試卷組成的基準)進行評估時,SeaLLMs顯示出從科學、化學、物理到經濟學等一系列東南亞語考試學科的深刻理解,表現優於同類產品。

在 FLORES基準測試中,SeaLLMs在英語和低資源語言(用於訓練會話人工智能系統的數據有限的語言,如老撾語和高棉語)之間的機器翻譯能力方面表現出色。在這些低資源語言中,SeaLLMs超越了現有模型,在越南語和印尼語等大多數高資源語言中,其表現與最先進(SOTA)模型相當。

阿里巴巴達摩院的 SeaLLMs系列不僅是人工智能的進步,也是邁向更具包容性的數字未來的一步。欲深入了解 SeaLLMs的能力和影響,請訪問Hugging Face的項目頁面:SeaLLMs:東南亞語言的語言模型和其技術報告

立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢。

達摩院 阿里巴巴