在虛擬會(huì)議中,通過(guò)靜音鍵可以很容易阻止人們互相交談。但在熙熙攘攘的咖啡館里,沒(méi)有按鈕可以讓你旁邊的桌子安靜下來(lái)。
定位和控制聲音的能力——例如,在擁擠的房間里,將一個(gè)人的說(shuō)話與特定位置隔離開(kāi)來(lái)——對(duì)研究人員來(lái)說(shuō)是一個(gè)挑戰(zhàn),尤其是在沒(méi)有攝像頭視覺(jué)線索的情況下。
由華盛頓大學(xué)的研究人員領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)開(kāi)發(fā)了一種可變形的智能揚(yáng)聲器,它使用自動(dòng)部署的麥克風(fēng)將房間劃分為語(yǔ)音區(qū)域,并跟蹤單個(gè)揚(yáng)聲器的位置。在該團(tuán)隊(duì)的深度學(xué)習(xí)算法的幫助下,即使兩個(gè)相鄰的人的聲音相似,該系統(tǒng)也可以讓用戶將某些區(qū)域或單獨(dú)的同時(shí)對(duì)話靜音。每個(gè)直徑約一英寸,麥克風(fēng)自動(dòng)從充電站部署,然后返回到充電站。這允許系統(tǒng)在環(huán)境之間移動(dòng)并自動(dòng)設(shè)置。例如,在會(huì)議室會(huì)議中,可以部署這樣一個(gè)系統(tǒng),而不是中央麥克風(fēng),以便更好地控制室內(nèi)音頻。
該團(tuán)隊(duì)于9月21日在《自然通訊》(Nature Communications)上發(fā)表了他們的研究結(jié)果。
“如果我閉上眼睛,房間里有10個(gè)人在說(shuō)話,我不知道誰(shuí)在說(shuō)什么,也不知道他們?cè)诜块g里的確切位置。這對(duì)人類大腦來(lái)說(shuō)是很難處理的。到目前為止,這對(duì)技術(shù)來(lái)說(shuō)也很困難,”共同主要作者M(jìn)alek Itani說(shuō),“這是第一次,使用我們稱之為‘聲學(xué)群’(acoustic swarm)的機(jī)器人,我們能夠跟蹤一個(gè)房間里說(shuō)話的多人的位置,并將他們的講話分開(kāi)。”
以前對(duì)機(jī)器群的研究需要使用頭頂或設(shè)備上的攝像頭、投影儀或特殊表面。華盛頓大學(xué)團(tuán)隊(duì)的系統(tǒng)是第一個(gè)僅使用聲音精確分配機(jī)器群的系統(tǒng)。
該團(tuán)隊(duì)的原型由七個(gè)小型機(jī)器人組成,它們分布在不同大小的桌子上。當(dāng)它們從充電器中移動(dòng)時(shí),每個(gè)機(jī)器人都會(huì)發(fā)出高頻聲音,就像蝙蝠導(dǎo)航一樣,利用這個(gè)頻率和其他傳感器來(lái)避開(kāi)障礙物,四處移動(dòng)而不會(huì)從桌子上掉下來(lái)。自動(dòng)部署使機(jī)器人能夠以最大的精度放置自己,比人工設(shè)置它們更能精準(zhǔn)控制聲音。這些機(jī)器人分散在盡可能遠(yuǎn)的地方,因?yàn)榫嚯x越遠(yuǎn),區(qū)分和定位說(shuō)話的人就越容易,F(xiàn)在的消費(fèi)級(jí)智能揚(yáng)聲器有多個(gè)麥克風(fēng),但聚集在同一個(gè)設(shè)備上,相距太近了,無(wú)法允許這個(gè)系統(tǒng)的靜音和活動(dòng)區(qū)域。
“如果我有一個(gè)麥克風(fēng)離我一英尺遠(yuǎn),另一個(gè)麥克風(fēng)離我兩英尺遠(yuǎn),我的聲音會(huì)先傳到一英尺遠(yuǎn)的麥克風(fēng)。如果其他人離麥克風(fēng)更近,他們的聲音會(huì)先傳到那里!毖芯咳藛T表示,“我們開(kāi)發(fā)了神經(jīng)網(wǎng)絡(luò),利用這些延時(shí)信號(hào)來(lái)區(qū)分每個(gè)人在說(shuō)什么,并跟蹤他們?cè)诳臻g中的位置。因此,你可以讓四個(gè)人進(jìn)行兩次對(duì)話,并分離出四種聲音中的任何一種,并在房間中定位每種聲音!
該團(tuán)隊(duì)在辦公室、客廳和廚房測(cè)試了機(jī)器人,每組三到五人說(shuō)話。在所有這些環(huán)境中,該系統(tǒng)可以在90%的情況下識(shí)別彼此相距1.6英尺(50厘米)以內(nèi)的不同聲音,而無(wú)需事先了解說(shuō)話者的數(shù)量。該系統(tǒng)平均能夠在1.82秒內(nèi)處理3秒的音頻。
研究人員表示,隨著技術(shù)的進(jìn)步,聲群可能會(huì)被部署在智能家居中,以更好地區(qū)分與智能揚(yáng)聲器交談的人。例如,這可能只允許坐在沙發(fā)上的人,在一個(gè)“活動(dòng)區(qū)”,對(duì)電視進(jìn)行語(yǔ)音控制。
研究人員計(jì)劃最終制造出可以在房間里移動(dòng)的麥克風(fēng)機(jī)器人,而不是局限在桌子上。該團(tuán)隊(duì)還在研究揚(yáng)聲器是否能發(fā)出聲音,允許真實(shí)世界內(nèi)實(shí)現(xiàn)靜音和活動(dòng)區(qū)域,讓房間不同位置的人就能聽(tīng)到不同的聲音。
當(dāng)然,這項(xiàng)技術(shù)也會(huì)讓人聯(lián)想到隱私問(wèn)題。研究人員承認(rèn)麥克風(fēng)可能會(huì)被誤用,所以他們?cè)O(shè)置了防范措施:麥克風(fēng)是用聲音導(dǎo)航的,而不是像其他類似系統(tǒng)那樣用車載攝像頭導(dǎo)航。而且這些機(jī)器人很容易被看到,當(dāng)它們活動(dòng)時(shí),它們的提示燈會(huì)閃爍。聲學(xué)群不像大多數(shù)智能揚(yáng)聲器那樣在云端處理音頻,而是在本地處理所有音頻,作為隱私限制。盡管有些人最初的想法可能是關(guān)于監(jiān)視,但該系統(tǒng)可以用于相反的情況,該團(tuán)隊(duì)說(shuō)。
“它有可能真正有益于隱私,超出了目前的智能揚(yáng)聲器所允許的范圍,”Itani說(shuō)!拔铱梢哉f(shuō),'不要在我的辦公桌周圍記錄任何東西',我們的系統(tǒng)會(huì)在我周圍3英尺處產(chǎn)生一個(gè)區(qū)域。這個(gè)區(qū)域中的任何內(nèi)容都不會(huì)被記錄下來(lái);蛘撸绻麅山M在旁邊說(shuō)話,一組正在進(jìn)行私人對(duì)話,而另一組正在錄音,則一個(gè)對(duì)話可以處于靜音區(qū),并且它將保持私密。”
|