/ 最新消息
最新消息

看下巴就行了?辨識無聲語言的項鍊來了

2022.03.08|
AI
 

想像一下,如果你坐在掉針可聞的會議室或圖書館裡,脫口而出「Siri,明天天氣如何」,或許不太合適。當一個人不能說話或必須保持安靜,卻想對智慧設備下指令,該怎麼辦?

康乃爾大學訊息科學助理教授 Cheng Zhang 和博士生 Ruidong Zhang 設計了叫「SpeeChin」的項鍊。它基於下巴運動,捕捉「頸部和臉部皮膚變形圖」,辨識無聲語言,目前可辨識英語和中文簡單短詞。

 

 

SpeeChin 紅外線鏡頭裝在 3D 列印的「項鍊盒」上,項鍊盒可用銀鍊掛在脖子上,鏡頭指向配戴者下巴。為了提高穩定性,開發人員設計了「機翼」,並在底部放一枚硬幣。除了這些,SpeeChin 還配備微處理器、電池和藍牙模組。

利用機器學習演算法,能據配戴者的下巴運動確定說了哪些命令,然後將命令傳到配對的智慧手機,就像用另一種方式溝通的 Siri。為了避免隱私,SpeeChin 只會對準下巴,不會拍到使用者的臉。

最初實驗有 20 名參與者(10 名說英語,10 名中文),研究人員測量下巴基線位置,然後使用差分圖像訓練 SpeeChin 辨識簡單命令。10 位英語參與者無聲說 54 條命令,包括數字、互動、呼叫語音助理、標點和導航,10 位中文參與者 44 條命令也一樣。

實驗結果,SpeeChin 辨識英文和中文命令平均準確率分別為 90.5% 和 91.6%。 研究人員表示,這款設備可能學習無聲語音模式,研究人員還要求 6 名參與者行走時默默說 10 個中文和英文片語,但成功率較低,主要是參與者頭部以不可預測的方式移動。

為什麼無聲語音辨識要做成項鍊?研究人員闡述目的:

我們認為項鍊是人們習慣的裝飾品,而不是耳掛式設備,後者可能不太舒服;至於無聲語音,人們可能會想「我的手機就是語音辨識設備了」,但還是會遇到要為無法出聲的人和場合發聲。

SpeeChin 外觀與 NeckFace 類似。NeckFace 是 Cheng Zhang 和 SciFi Lab 團隊去年推出的設備,使用紅外線攝影機,從頸部下方捕捉下巴和臉部影像,生成完整 3D 表情重建,可持續追蹤臉部表情。

 

 

NeckFace 在心理健康領域可能特別有用,因可追蹤一天情緒變化。雖然人類情緒不一定會表現出來,但隨著時間過去,表情變化量還是可顯示情緒波動。NeckFace 也可用於其他場景,如無法選擇前置鏡頭時開虛擬會議、虛擬實境臉部表情檢測等。如果 SpeeChin 更發展,使用場景會越來越多,包括必須靜音的環境、無法辨識的嘈雜環境及語言能力有障礙的族群。

原始文章: https://technews.tw/2022/02/27/smart-necklace-recognizes-english-mandarin-commands/