阿里巴巴達摩院發佈人工智能語音點餐方案

阿里巴巴達摩院機器智能技術實驗室自主研發的多模態語音交互方案可應用於餐廳點餐，提升餐飲業的運作效率及顧客的點餐體驗。

「兩杯拿鐵，需要做成冷的，少冰加脫脂奶，嗯……然後還要個卡布奇諾，放點焦糖，對了，一杯拿鐵在這裡吃，其它的帶走，哦，都是大杯的。」走進餐廳，不按次序條理點餐，也不用擔心服務員來不及接收訊息了。在人工智能持續發展下，機器系統可以解讀到這種不按次序條理的口語，在餐廳嘈雜環境下理解客戶所說的一字一句，並據此輸入修正後的點餐內容。這是近日阿里巴巴達摩院機器智能技術實驗室在阿里雲「雲棲大會‧武漢峰會」上發佈的一套多模態語音交互方案。

這套方案由阿里巴巴達摩院機器智能技術實驗室自主研發，並在阿里雲進行商業化輸出應用，當中包含機器智能技術實驗室在聲源定位、語音增強、人臉和圖像識別、自然語言處理、流式口語理解、長句多意圖理解及對話管理等等最新的前沿研究成果，所有核心技術為阿里巴巴獨家或自有專利技術，將逐步通過學術論文對外公開。

升級系統只需數十秒就可完成點餐

這套方案的特點在於致力使用人與人之間的自然交流方式，來提供公共空間、特定應用場景下的自然人機交互體驗。這套方案在2017年12月時，已首次亮相，應用於上海地鐵語音售票概念機，而且在今年3月正式於上海南站服務市場，這套地鐵售票機應用的技術成功解決在公共場所嘈雜環境下的語音識別準確率問題。乘客不需要在繁複的地鐵線路上找出自己想要到的車站及路線，根據測試數據，普通的買票程序需要約30秒，而語音購票只需要10秒左右。

而這次發佈的語音點餐機，則為原有方案的進一步升級。新系統不但可以應用到新零售背景下的智能咖啡店，提高排隊點餐的效率，令整體過程更流暢；同時，一般的語音交互機器，都需要由人類發出「語音喚醒」，例如先說︰「Hi，點餐機」，叫醒機器之後才開始說出指令，不過阿里巴巴達摩院機器智能技術實驗室的流式多輪多意圖口語理解技術，就打破了這個常規，人類只需隨意說出指令，機器就可以自行理解需要。

在阿里雲「雲棲大會‧武漢峰會」現場示範，同樣的點餐內容，人工點餐用了2分37秒左右，而通過人工智能語音系統點餐，則只是用了不足50秒；而與自助點餐不同之處，就是利用語音，顧客只需直接說出想要的東西，而不用在屏幕上找東找西，更簡單方便。