近日,Meta公司推出了多模態(tài)人工智能翻譯模型SeamlessM4T的“v2”架構(gòu),將其稱之為“Seamless Communication(無(wú)縫溝通)”模型,旨在讓對(duì)話翻譯更加自然和富有表現(xiàn)力。
“SeamlessExpressive”功能可以將說(shuō)話者的語(yǔ)氣、音調(diào)、音量、情感色彩、語(yǔ)速和停頓等元素轉(zhuǎn)移到翻譯后的語(yǔ)音中。這一突破將為翻譯后的語(yǔ)音帶來(lái)更自然、更生動(dòng)的表現(xiàn),無(wú)論是在日常生活中還是在內(nèi)容制作中都將帶來(lái)極大的幫助。目前,“SeamlessExpressive”支持英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、法語(yǔ)和中文等語(yǔ)言,但演示頁(yè)面缺少意大利語(yǔ)和中文。
另一個(gè)功能是“SeamlessStreaming”,可以在說(shuō)話者仍在講話時(shí)開始翻譯,使其他人能夠更快地聽到翻譯。盡管仍存在不到兩秒鐘的短暫延遲,但這一功能至少可以在不必等到對(duì)方說(shuō)完一個(gè)句子時(shí)就開始翻譯。Meta公司表示,最大的挑戰(zhàn)在于不同語(yǔ)言有不同的句子結(jié)構(gòu),因此他們必須開發(fā)一個(gè)專門的算法來(lái)研究部分音頻輸入,以決定是否有足夠的上下文開始生成翻譯輸出,或者是否需要繼續(xù)傾聽。
目前,Meta公司尚未透露公眾何時(shí)能夠使用這些新功能。但可以期待未來(lái),Meta公司將把這些新功能集成到其智能眼鏡中,使其更加實(shí)用。隨著人工智能技術(shù)的不斷發(fā)展,相信未來(lái)我們將會(huì)看到更多突破性的翻譯技術(shù),為跨語(yǔ)言交流帶來(lái)更加順暢、自然的體驗(yàn)。
原創(chuàng)文章,作者:秋秋,如若轉(zhuǎn)載,請(qǐng)注明出處:http://rponds.cn/article/601894.html