Rokid Glasses AR+AI眼鏡自去年11月面世以來,憑借戒指輕觸控制提詞翻頁的創新交互方式吸引了廣泛關注。然而,隨著用戶深入使用,一些痛點逐漸顯現,如手動操作分散注意力、翻頁節奏固定僵化以及演講者對提詞器的過度依賴等。
為了解決這些痛點,Rokid研發團隊近日宣布提交了一項名為“一種基于智能算法的提詞器功能”的專利。該專利旨在通過智能算法,根據演講者的語速和節奏自動匹配文稿,實現語言表達與文稿滾動的無縫同步。
傳統提詞器的交互方式主要包括手動觸控、物理遙控器和固定定時滾動三種。這些方式雖然在特定場景下有效,但局限性也日益凸顯。例如,人工交互需要演講者在表達內容與控制設備間頻繁切換注意力,這不僅消耗精力,還可能因滑動眼鏡等動作被觀眾誤讀為緊張或不自信的肢體語言。而固定節奏的定時滾動模式雖然解放了雙手,卻往往與演講者的語速脫節,導致文字滾動與演講內容錯位,引發認知混亂。
Rokid的新專利則通過三項核心技術構建了智能提詞系統,首先是多模態語音識別引擎系統。該系統采用端到端的深度神經網絡模型,能夠實時解析演講者的語音內容,不僅支持普通話,還兼容多種方言,滿足多語言場景需求。在45分貝背景噪音下,該系統仍能保持98%的識別準確率。它還能精準捕捉重復朗讀、跳躍式朗讀等非常規表達,智能判斷演講者的意圖并調整文稿位置。
其次是動態語速適配算法。該算法構建了“語速-文本密度”的動態映射模型,能夠實時追蹤演講者的語速數據,每0.5秒更新一次,覆蓋80-200字/分鐘的寬泛區間,滿足99%的演講場景需求。同時,它還具備彈性緩沖機制,當檢測到5秒以上停頓時,系統會自動暫停并標記當前位置,恢復時通過上下文語義分析定位正確段落。
最后是多場景演講匹配算法。該算法結合了精準匹配和模糊匹配兩種模式,滿足演講場景的全方位交互需求。精準匹配算法能夠確保演講者無論是跳詞還是漏字,都能精準地匹配到正在閱讀的語句。而模糊匹配算法則適用于演講者脫稿即興發揮或與觀眾無稿交流時,此時匹配算法會暫停,不影響演講者的節奏。當演講者回到演講稿中時,匹配算法會立即識別并繼續精準匹配。
Rokid的新專利不僅解決了傳統提詞器的痛點,還通過智能算法提升了演講的流暢度和觀眾的體驗。未來,隨著該專利技術的進一步推廣和應用,相信將為演講者帶來更加便捷、高效的演講體驗。