對情緒可感知度達85％，訊飛推“超擬人交互”

發布時間：2024-09-02 20:03 原文鏈接：對情緒可感知度達85％，訊飛推“超擬人交互”

8月30日，科大訊飛星火極速超擬人交互技術正式上線訊飛星火APP，率先面向全社會開放體驗。根據官方介紹，星火極速超擬人交互在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現重大突破，讓整體交互體驗更自然、更具情感。

《中國科學報》記者第一時間在訊飛星火APP上體驗了該功能。可以看到，星火極速超擬人交互響應速度很快，支持隨時打斷；可以識別不同的情緒并呈現有代入符合情境的對話和回復，能覺察到其在有意減少“機械感”。

科大訊飛研究院常務副院長高建清介紹說，極速響應是確保一切體驗的基礎，也是區別于其它語音產品的關鍵能力。他解釋說，“端到端”技術框架是實現極速響應的重點，該技術通過將此前級聯方案升級為統一神經網絡，直接實現語音到語音的“端到端”建模，從而大幅縮短響應時間，做到了真正的極速。

至于快速打斷功能，高建清說，遇到錯答、啰嗦回復等情況，立即打斷是人的生理本能。但快速打斷及響應其實是個極其復雜的工程問題，需要去判定何時打斷、何時不應打斷。“我們通過技術創新與強化底座認知能力，解決了打斷和響應時間平衡的問題。”

星火極速超擬人語音交互技術路線圖。科大訊飛供圖

人類語言具有獨特的情緒感染力，能夠傳達復雜的情感和思想。但長久以來，智能語音與自然語言處理技術偏重于針對“內容”模塊下功夫，比如能“聽懂”更多的語種，“解答”更多的問題，缺少擬人化的對話方案。

高建清表示，想要獲得擬人化的對話體驗，需要“內容”與“情緒”等模塊協同作用。而大模型時代的到來，恰好能讓不同的模塊化功能進行“大統一”。他對記者解釋道：“以往語音交互系統都是不同的模塊，比如語音識別、語音合成和大語言模型。而科大訊飛星火極速超擬人交互技術基于端到端大模型框架，結合訊飛多維度語音屬性解耦表征訓練模塊，從而可實現情感、方言、韻律、音色等的可控，最終實現了對語音交互的擬人化升級。”

“我們將一萬多條帶明確情緒色彩的語音測試語音大模型，結果有8500多條回復能匹配相應的情緒。”高建清告訴《中國科學報》，訊飛星火語音大模型的超擬人功能，對多種情緒的可感知度達到85%以上，可使對話聲音真實度、擬人度更強。

他認為，共情力對于大模型是一項重要的基礎能力，或許在未來的人形機器人身上，我們將看到更具共情力的具象表達。他進一步提出，目前系統暫時不能使用表情，但未來如果將表情、聲音內容與聲音情緒三者結合在一起，將會是一條可行的新路徑。

更多與對情緒可感知度達85％，訊飛推“超擬人交互” 相關的新聞

對情緒可感知度達85％，訊飛推“超擬人交互”

其他網友還關注過

3000萬青少年被情緒困擾？別錯過9歲的“黃金窗口期”

新研究揭示情緒致特應性皮炎加重的分子機制

國家能源集團發布全球首個千億級發電行業大模型“擎源”

中國首個海洋領域開源大模型OceanGPT正式發布

智能識別新模型可減少機器采摘菠蘿損傷率

研究揭示面部表情識別內在機制破解“察言觀色”背后的科學密碼

精準診斷消化道罕見病的醫學多模態大模型發布

《模型引導的創新藥物劑量探索和優化技術指導原則》發布

騰訊大模型上線文生視頻并宣布開源

2024人工智能十大前沿技術趨勢在北京發布