無(wú)聲勝有聲 清華團(tuán)隊(duì)推出新穎唇語(yǔ)解讀系統(tǒng)
人說(shuō)話時(shí)嘴唇動(dòng)作跟語(yǔ)音同步,可以通過(guò)識(shí)別唇動(dòng)信息進(jìn)行語(yǔ)言信息交流。唇語(yǔ)對(duì)講話者友好,但是對(duì)解讀唇語(yǔ)的聽(tīng)眾來(lái)說(shuō)卻并不輕松,唇語(yǔ)解讀一直以來(lái)是個(gè)難題,掌握唇語(yǔ)解讀技能的成本較高。
據(jù)了解,為降低唇語(yǔ)解讀難度,現(xiàn)有技術(shù)手段常采用磁場(chǎng)、視覺(jué)圖像、超聲波等方法。以最流行的非接觸式視覺(jué)圖像方法為例,其唇語(yǔ)識(shí)別準(zhǔn)確率較高,但依然容易受到面部角度、光強(qiáng)、頭動(dòng)和遮擋等因素干擾。特別是在此次新冠病毒流行期間,佩戴的口罩給基于視覺(jué)的唇動(dòng)解讀帶來(lái)全新挑戰(zhàn)。因此,通過(guò)直接捕捉面部肌肉細(xì)微動(dòng)作解讀唇語(yǔ)技術(shù)具有重要的科學(xué)研究?jī)r(jià)值與廣闊的應(yīng)用前景。
如果在不久的將來(lái),嘴唇掀動(dòng)——“開(kāi)門”,也許電子門禁能秒懂,馬上識(shí)別身份并解鎖;與汽車對(duì)話——“左拐”,或許可控制車的方向逐漸向目標(biāo)移動(dòng);對(duì)于聲帶、喉舌損傷的失聲人群,唇語(yǔ)可能將是一種不占用雙手的、日常無(wú)障礙交流的有效方式……
這些想法,在近日清華大學(xué)機(jī)械工程系智能與生物機(jī)械團(tuán)隊(duì)推出一種新穎的唇語(yǔ)解讀系統(tǒng)之后,將很有可能夢(mèng)想成真。相關(guān)研究成果發(fā)表在最新的《自然·通訊》期刊上。
據(jù)了解,這項(xiàng)技術(shù)的主要試驗(yàn)和測(cè)試工作由清華機(jī)械工程系智能與生物機(jī)械實(shí)驗(yàn)室完成,中科院納米能源與系統(tǒng)研究所的王中林院士對(duì)整個(gè)科研工作過(guò)程進(jìn)行建議和指導(dǎo)。
那么,究竟這項(xiàng)唇語(yǔ)解讀系統(tǒng)的新穎之處何在?“這個(gè)基于深度學(xué)習(xí)輔助自供電柔性傳感器的唇語(yǔ)解讀技術(shù),目標(biāo)是解決聲帶、喉舌損傷失聲人群的日常無(wú)障礙交流問(wèn)題,其不占用雙手,不受面部角度、光強(qiáng)、遮擋和頭動(dòng)等外部因素的干擾,新穎之處在于開(kāi)發(fā)自供電的柔性傳感器(靈敏度0.61183 V/kPa)采集肌肉的微小動(dòng)作信號(hào),并采用基于原型學(xué)習(xí)的深度學(xué)習(xí)模型,使用較少的數(shù)據(jù)訓(xùn)練,測(cè)試準(zhǔn)確率可達(dá)94.5%,實(shí)現(xiàn)即時(shí)捕捉失聲人群的唇動(dòng)并轉(zhuǎn)譯成語(yǔ)音,可用于失聲人群的日常無(wú)障礙語(yǔ)音交流?!?月29日,該論文第一作者、清華大學(xué)機(jī)械工程系智能與生物機(jī)械團(tuán)隊(duì)助理研究員路益嘉在接受科技日?qǐng)?bào)記者采訪時(shí)表示。
這個(gè)唇語(yǔ)解讀系統(tǒng)是否會(huì)運(yùn)用大數(shù)據(jù)、人工智能等技術(shù),突破的技術(shù)瓶頸是什么?路益嘉答道,“實(shí)現(xiàn)對(duì)唇動(dòng)信號(hào)的識(shí)別需要用到人工智能技術(shù)和機(jī)器學(xué)習(xí)算法。在實(shí)際測(cè)試中發(fā)現(xiàn),由于不同人的面部骨骼肌肉、肌肉運(yùn)動(dòng)形式、肌肉動(dòng)作先后順序和習(xí)慣語(yǔ)速等存在不同,即使是同一個(gè)詞和同一句話,采集到的信號(hào)也有區(qū)別,為了得到通用的可以接受的測(cè)試準(zhǔn)確率,需要采集海量的數(shù)據(jù)進(jìn)行模型訓(xùn)練。然而,這樣的成本偏高。”
據(jù)介紹,研究人員沒(méi)有采用訓(xùn)練通用模型的技術(shù)路線,而是采用訓(xùn)練個(gè)性化的小樣本量數(shù)據(jù)模型的方法,即對(duì)每個(gè)人的每個(gè)詞(或每句話)分別采集小樣本量(相對(duì)海量數(shù)據(jù)而言)的數(shù)據(jù)進(jìn)行模型訓(xùn)練,考慮到每人說(shuō)話的唇動(dòng)都具有獨(dú)特的習(xí)慣特征,這樣訓(xùn)練出的模型缺少通用性但更有針對(duì)性,而不考慮通用性的要求降低模型對(duì)訓(xùn)練數(shù)據(jù)量的需求,小樣本量也能得到可接受的測(cè)試準(zhǔn)確率。研究人員使用基于原型學(xué)習(xí)的空洞循環(huán)神經(jīng)網(wǎng)絡(luò),來(lái)減少模型對(duì)訓(xùn)練樣本量的需求。例如,在測(cè)試中對(duì)20個(gè)常用水果名稱的唇動(dòng)信號(hào)進(jìn)行分類訓(xùn)練,每個(gè)水果名稱的唇動(dòng)信號(hào)選取100個(gè)樣本,測(cè)試準(zhǔn)確率達(dá)94.5%。
這項(xiàng)研究將在哪些領(lǐng)域應(yīng)用,發(fā)揮作用?“該研究通過(guò)自供電傳感器采集唇動(dòng)微動(dòng)信號(hào),并使用深度學(xué)習(xí)模型將信號(hào)識(shí)別為有含義的語(yǔ)音信號(hào)或文字信號(hào),比較適合服務(wù)失聲人群,在日常生活交流中可恢復(fù)失聲人群的基本語(yǔ)音交流能力,并保留失聲前的說(shuō)話習(xí)慣。”路益嘉表示。
此外,其還可應(yīng)用于個(gè)人身份識(shí)別。研究人員制作出一個(gè)唇動(dòng)指令開(kāi)門的應(yīng)用演示。由于該方法融合特定密碼口令的靜態(tài)特征和個(gè)人特殊的唇部動(dòng)態(tài)特征,可以實(shí)現(xiàn)雙重特征驗(yàn)證,特別是戴口罩不發(fā)聲說(shuō)密碼的方式可進(jìn)一步提升系統(tǒng)安全性,適用于安全驗(yàn)證要求較高的場(chǎng)合。
該研究成果還可用于人機(jī)交互的研究。研究人員制作出一個(gè)唇動(dòng)信號(hào)控制模型車運(yùn)動(dòng)方向的應(yīng)用演示,通過(guò)檢測(cè)唇動(dòng)發(fā)出的方向指令,機(jī)器模型車可改變行進(jìn)方向。這為現(xiàn)有人機(jī)交互方案提供了新的可能性。
本報(bào)記者 華 凌
版權(quán)聲明:凡注明“來(lái)源:中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來(lái)源中國(guó)西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。
- 蘇州發(fā)現(xiàn)新冠病毒新變體? 專家表示無(wú)需恐慌
- 一知名品牌上衣賣價(jià)高還有質(zhì)量問(wèn)題 涉事企業(yè)被罰款
- 山西隊(duì)趕上末班車 CBA季后賽產(chǎn)生八強(qiáng)
- 廣東、河南援滬醫(yī)療隊(duì)今明將陸續(xù)抵達(dá)上海
- 天津建立鏈條式群防群控機(jī)制 持續(xù)開(kāi)展“健康碼”數(shù)據(jù)分析
- 天津明確對(duì)交通運(yùn)輸行業(yè)七類重點(diǎn)人員加強(qiáng)管理
- 海南:入住六市縣酒店須出示核酸檢測(cè)陰性證明
- 農(nóng)業(yè)技術(shù)員的一天
- 十里不同風(fēng) 百里不同俗——電視劇中的地域文化風(fēng)
- 保穩(wěn)提質(zhì) 外貿(mào)發(fā)展信心足