近日,亞馬遜震撼發(fā)布了其最新一代生成式AI模型——Nova Sonic,這款模型在語(yǔ)音處理領(lǐng)域?qū)崿F(xiàn)了重大突破,能夠生成自然流暢的語(yǔ)音,為語(yǔ)音交互技術(shù)樹立了新的標(biāo)桿。
據(jù)亞馬遜官方介紹,Nova Sonic在速度、語(yǔ)音識(shí)別以及對(duì)話質(zhì)量等多個(gè)關(guān)鍵指標(biāo)上,表現(xiàn)與OpenAI和谷歌的前沿語(yǔ)音模型不相上下。這一成就標(biāo)志著亞馬遜在AI語(yǔ)音技術(shù)上的顯著進(jìn)步,也是對(duì)近年來(lái)新興AI語(yǔ)音模型的有力回應(yīng)。
與亞馬遜早期的Alexa等模型相比,Nova Sonic在語(yǔ)音交互時(shí)更加自然流暢,用戶體驗(yàn)得到了顯著提升。這一轉(zhuǎn)變得益于Nova Sonic強(qiáng)大的語(yǔ)音處理能力,它不僅能夠準(zhǔn)確識(shí)別用戶的語(yǔ)音指令,還能在對(duì)話中展現(xiàn)出更加自然的語(yǔ)言風(fēng)格。
為了讓更多開發(fā)者能夠利用Nova Sonic的強(qiáng)大功能,亞馬遜將其通過Bedrock開發(fā)者平臺(tái)向用戶開放。該平臺(tái)是專為構(gòu)建企業(yè)級(jí)AI應(yīng)用而設(shè)計(jì)的工具,而Nova Sonic則通過一個(gè)全新的雙向流式API接入,使得開發(fā)者能夠輕松地將該模型集成到自己的應(yīng)用中。
在價(jià)格方面,亞馬遜聲稱Nova Sonic是市場(chǎng)上“最具成本效益”的AI語(yǔ)音模型。與OpenAI的GPT-4o相比,Nova Sonic的價(jià)格便宜了約80%,這無(wú)疑將吸引更多開發(fā)者選擇該模型。
亞馬遜高級(jí)副總裁兼人工通用智能(AGI)部門首席科學(xué)家羅希特·普拉薩德透露,Nova Sonic的部分組件已經(jīng)為亞馬遜升級(jí)版數(shù)字語(yǔ)音助手Alexa+提供了動(dòng)力支持。這一消息進(jìn)一步證明了Nova Sonic的強(qiáng)大實(shí)力。
普拉薩德還表示,與競(jìng)爭(zhēng)對(duì)手的AI語(yǔ)音模型相比,Nova Sonic在將用戶請(qǐng)求路由到不同API方面表現(xiàn)出色。它能夠根據(jù)上下文信息判斷何時(shí)需要從互聯(lián)網(wǎng)獲取實(shí)時(shí)信息、解析專有數(shù)據(jù)源或在外部應(yīng)用程序中采取行動(dòng),并使用合適的工具來(lái)完成任務(wù)。
在雙向?qū)υ捴校琋ova Sonic展現(xiàn)出了出色的等待“合適時(shí)機(jī)”發(fā)言的能力。它能夠準(zhǔn)確判斷說(shuō)話者的停頓和打斷情況,確保對(duì)話的流暢性和自然性。Nova Sonic還能夠?yàn)橛脩舻恼Z(yǔ)音生成文本記錄,這些文本記錄可以被開發(fā)者用于各種應(yīng)用場(chǎng)景。
在語(yǔ)音識(shí)別方面,Nova Sonic的表現(xiàn)同樣令人矚目。據(jù)普拉薩德介紹,該模型在語(yǔ)音識(shí)別錯(cuò)誤方面比其他AI語(yǔ)音模型更少。即使在用戶咕噥、說(shuō)錯(cuò)話或處于嘈雜環(huán)境中時(shí),Nova Sonic也能夠準(zhǔn)確理解用戶的意圖。在一項(xiàng)跨語(yǔ)言和方言的語(yǔ)音識(shí)別基準(zhǔn)測(cè)試中,Nova Sonic在英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)和西班牙語(yǔ)上的平均單詞錯(cuò)誤率僅為4.2%。
在衡量多人參與的高音量互動(dòng)的基準(zhǔn)測(cè)試中,Nova Sonic也展現(xiàn)出了出色的表現(xiàn)。與OpenAI的GPT-4o-transcribe模型相比,Nova Sonic在單詞錯(cuò)誤率方面準(zhǔn)確率高出46.7%。同時(shí),Nova Sonic還擁有行業(yè)領(lǐng)先的速度,其平均感知延遲為1.09秒,比OpenAI的GPT-4o模型更快。
普拉薩德強(qiáng)調(diào),Nova Sonic是亞馬遜構(gòu)建人工通用智能(AGI)這一更廣泛戰(zhàn)略的一部分。未來(lái),亞馬遜計(jì)劃推出更多能夠理解不同模態(tài)(包括圖像、視頻和語(yǔ)音)的AI模型,以及“其他在將事物引入物理世界時(shí)相關(guān)的感官數(shù)據(jù)”。
由普拉薩德負(fù)責(zé)的亞馬遜AGI部門在公司產(chǎn)品戰(zhàn)略中扮演著越來(lái)越重要的角色。上周,亞馬遜剛剛推出了Nova Act的預(yù)覽版,該模型似乎為Alexa+和亞馬遜的“代我購(gòu)買”功能的部分元素提供了支持。從Nova Sonic開始,亞馬遜希望將更多內(nèi)部的AI模型提供給開發(fā)者使用,以助力他們構(gòu)建各種創(chuàng)新應(yīng)用。