可靈AI近期在視頻創(chuàng)作領(lǐng)域邁出了重要一步,宣布其全系列視頻模型新增了“視頻音效”功能。這一創(chuàng)新舉措意味著,用戶在利用可靈AI進行視頻創(chuàng)作時,不僅能享受到高清細膩的畫面質(zhì)量,還能體驗到與視頻內(nèi)容完美契合、具備深度空間感的立體聲音效,從而真正實現(xiàn)了視覺與聽覺的雙重沉浸。
目前,這一“視頻音效”功能已被無縫整合進文生視頻、圖生視頻以及多模態(tài)編輯等多種創(chuàng)作模式之中,并且為了慶祝新功能上線,可靈AI決定在限定時間內(nèi)向所有用戶免費開放此功能。
可靈AI還對原有的“音效生成”功能進行了全面升級,新增了“視頻生音效”這一實用選項。現(xiàn)在,用戶不僅可以通過輸入文本快速生成音效,還能直接上傳本地視頻,或是選擇之前在可靈平臺上創(chuàng)作的視頻作品,一鍵為那些原本靜默的畫面添加上與語義相符、節(jié)奏一致的音效。這些音效能夠自動匹配視頻中的動作、環(huán)境以及氛圍,極大地增強了視頻內(nèi)容的感染力與沉浸效果,同時也有效減輕了創(chuàng)作者在音頻后期制作方面的負擔(dān)。
在實際應(yīng)用中,可靈AI的音效功能展現(xiàn)出了令人矚目的表現(xiàn)。例如,在一段展現(xiàn)嬰兒歡快笑聲的視頻中,模型不僅精準還原了嬰兒清脆的笑聲,還細致捕捉到了嬰兒笑聲間隙中的短暫吸氣聲,這些聲音與畫面中嬰兒臉頰的起伏動作完美同步,再加上富有層次感的立體聲效果,使得整個畫面充滿了溫馨與活力。
在另一項測試中,面對一段模擬山體滑坡導(dǎo)致巨石撞擊汽車的緊張場景,可靈AI自動生成了金屬扭曲斷裂、石塊飛濺以及塵土飛揚等細節(jié)音效。這些聲音不僅定位準確、層次分明,還極大地增強了災(zāi)難場景的視覺沖擊力與沉浸感,讓觀眾仿佛身臨其境。
據(jù)了解,可靈AI之所以能夠?qū)崿F(xiàn)上述功能,得益于其自主研發(fā)的多模態(tài)視頻生音效模型——Kling-Foley。該模型能夠根據(jù)視頻內(nèi)容以及可選的文本提示,自動生成與視頻畫面語義相關(guān)、時間同步的高質(zhì)量立體聲音頻,涵蓋音效、背景音樂等多種聲音類型。同時,Kling-Foley還支持生成任意時長的音頻內(nèi)容,并具備立體聲渲染能力,能夠模擬和渲染出具有空間定向的聲源效果。