最近最新中文字幕3_久久中文字幕永久第一页_一级特黄片在线免费看_日本熟女中文字幕DVD

您當(dāng)前的位置 :首頁 > 人物 > 權(quán)威訪談
投稿

華裔科學(xué)家汪德亮:我用深度學(xué)習(xí)顛覆了助聽技術(shù)

2017-04-01 14:43:08 來源:IEEE Spectrum 作者:于波 點(diǎn)擊圖片瀏覽下一頁

 

在我離家讀大學(xué)期間,我母親的聽力越來越差。我回家聊起大學(xué)生活時,她湊近了才能聽清楚我說什么。不久后,如果同時有不止一個人在說話,她就很難聽清,F(xiàn)在,即使戴著助聽器,她也難以區(qū)分每個人的聲音,所以一家人團(tuán)聚時要輪流說話才能讓她聽明白。

母親的苦處反映了助聽器制造商面臨的一個典型問題。人類聽覺系統(tǒng)能夠在擁擠的房間里,輕易辨別每個人的聲音,但幾十年來,信號處理專家、人工智能專家和聽力學(xué)家竭盡所能,也無法讓助聽器具備這種能力。1953年,英國認(rèn)知科學(xué)家科林·切瑞(Colin Cherry)首次將其稱為“雞尾酒會問題”。

六十多年后的今天,在需要助聽器的人之中,只有不到25%的人真正使用了助聽器。最令潛在用戶失望的地方在于,助聽器無法在多個聲音之間作出區(qū)分,比如說話聲和同時有汽車經(jīng)過的聲音。遇到這種情況,助聽器只會調(diào)高兩個聲音的音量,結(jié)果就變成了混亂的嘈雜聲。

 

7.66億人的市場

到了必須解決這個問題的時候了。

為了改善助聽器佩戴者的體驗(yàn),近一段時期,我在俄亥俄州立大學(xué)的實(shí)驗(yàn)室利用了基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),用它來分離聲音。我們測試了多個版本的數(shù)字濾音器,這些濾音器不僅能放大聲音,還能將說話聲從背景噪音中分離出來,并自動調(diào)節(jié)每個聲音的音量。

我們相信,這種方法最終能恢復(fù)聽力受損者對聲音的理解能力,使之達(dá)到、甚至超過正常人的聽力水平。事實(shí)上,我們的一個早期模型大幅增強(qiáng)了某些受試者在噪音中聽清話語的能力,準(zhǔn)確率從10%提高到90%。

如果沒有更好的助聽器,全世界的聽力狀況將惡化。據(jù)世界衛(wèi)生組織估計,15%的成年人(約為7.66億人)存在聽力受損。而隨著人口增長以及老齡人口的比重增加,這個數(shù)字正在上升。先進(jìn)助聽器的潛在市場不僅限于聽力受損者。研發(fā)人員可以利用這項(xiàng)技術(shù)改善智能手機(jī)的語音識別功能,企業(yè)主可以用它幫助員工在嘈雜的工廠里工作,軍隊(duì)可以把它作為軍事裝備,讓士兵能夠在震耳欲聾的戰(zhàn)場上,聽清戰(zhàn)友的話語。

這構(gòu)成了一個龐大的潛在市場。市場調(diào)研公司MarketsandMarkets估計,到2020年前,全球助聽器行業(yè)(目前規(guī)模為60億美元)將以每年6%的速度增長。但若想滿足所有那些新用戶的需求,就必須想辦法解決“雞尾酒會問題”,而深度神經(jīng)網(wǎng)絡(luò)為我們指明了前進(jìn)的方向。

清晰語音:為了分離語音和噪聲,機(jī)器學(xué)習(xí)軟件把帶有噪聲的語音樣本分解成一個個時頻單元,然后分析這些單元,提取出用以區(qū)分語音和其他聲音的85個已知特征,接著,把這些特征輸入深度神經(jīng)網(wǎng)絡(luò)。經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)會根據(jù)以前處理類似樣本的經(jīng)驗(yàn),對單元進(jìn)行分類,區(qū)別出哪些是語音,哪些是噪聲。最后,軟件使用數(shù)字濾音器,排除掉所有的非語音單元,只留下分離出來的語音。

幾十年來,電子和計算機(jī)工程師一直都著眼于通過信號處理來實(shí)現(xiàn)語音分離,但每每以失敗告終。最常見的方法是利用語音活動探測器,識別人們在說話時的發(fā)音間隔。按照這種方法,系統(tǒng)會把間隔期間捕捉到的聲音認(rèn)定為“噪音”。然后,計算機(jī)算法再從原始錄音中去除這些噪音,從理論上來說,只留下了沒有噪聲的語音。

只是,這種被稱為“譜減法”的技術(shù),效果很差,要么去除了太多的語音,要么去除的噪音太少。即使經(jīng)過多年的發(fā)展,毛病依然很多,事實(shí)證明它能提供的幫助很有限。

我意識到,我們必須另辟蹊徑。于是,我們從加拿大麥吉爾大學(xué)心理學(xué)家阿爾伯特·布雷格曼(Albert Bregman)的理論著手。1990年,布雷格曼提出,人類聽覺系統(tǒng)將聲音組織成不同的聲音流。從本質(zhì)上說,一個聲音流對應(yīng)一個聲音源,比如身邊的某位朋友。每個聲音流的音調(diào)、音量和方向來源都是獨(dú)一無二的。

嘈雜的世界:人類的耳朵能同時捕捉到很多聲音流,這在一定程度上歸因于其奇特的形狀。一個聲音流是指一種聲音源發(fā)出的所有聲波,比如一只狗。所有這些聲音流匯聚在一起,構(gòu)成了聽覺場景(犬吠聲+警笛聲+說話聲)。

眾多聲音流(比如在喧鬧的球場里說話)匯聚在一起,就構(gòu)成了布雷格曼所說的“聽覺場景”。如果多個聲音同時出現(xiàn)在同一個頻段,場景中最響亮的聲音便會掩蓋其他聲音,這個原理被稱為“聽覺遮蔽”。比如,當(dāng)雨水滴答落在屋頂上時,你可能不會注意到房間角落里鐘表發(fā)出的聲音。MP3文件就是利用這個原理及其他技術(shù),通過去除被掩蓋的聲音,將文件壓縮至原始大小的十分之一。

按照布雷格曼的理論,我們想知道,可不可以打造一種濾音器,能夠在特定時刻、特定頻段內(nèi),確定一個聲音流是否強(qiáng)于其他聲音流。我們希望這款濾音器能告訴我們,在特定時刻,一個包含語音或者噪聲的聲音流,是否會在其頻段內(nèi)處于更加強(qiáng)勢的地位,以此作為分離語音和噪聲的第一步。

什么是理想二元掩模?

2001年,我的實(shí)驗(yàn)室率先設(shè)計出了這樣一種濾音器,它能夠把聲音流標(biāo)記為兩種:以語音為主,或者以噪聲為主。有了這種濾音器,我們又開發(fā)了一款機(jī)器學(xué)習(xí)軟件,它能根據(jù)振幅(音量)、諧波結(jié)構(gòu)(音調(diào)的特定排列)以及開始時刻(一個聲音相對于其他聲音開始的時間)等特征,把語音與其他聲音分離開來。

最初開發(fā)的這種濾音器就是我們所說的理想二元掩模。它從名為“時頻單元”的聲音片段中,找出噪聲和語音,并加以標(biāo)記。通過時頻單元,我們可以得知各個頻段獨(dú)有的發(fā)音間隔。濾音器會分析每個時頻單元帶有噪音的樣本,用1或0來標(biāo)記。如果“目標(biāo)”聲音(在此例中是語音)比噪聲更響亮,則標(biāo)記為1;如果目標(biāo)聲音更柔和,則標(biāo)記為0。其結(jié)果就是一連串1和0,它們代表了噪聲或語音在樣本中的主導(dǎo)地位。然后,濾音器去掉所有標(biāo)記為0的單元,再把那些標(biāo)記為1的單元重新組織起來。為了從帶噪語音中重新構(gòu)建出可理解的句子,必須有一定比例的時頻單元被標(biāo)記為1。

2006年,我們在美國空軍研究實(shí)驗(yàn)室開始測試?yán)硐攵谀!M瑫r,雪城大學(xué)的一支研究團(tuán)隊(duì)對理想二元掩模進(jìn)行了獨(dú)立評估。在試驗(yàn)中,這種濾音器不僅對聽覺受損者有幫助,而且也有助于聽力正常者更好地理解帶有噪音的句子。

我們創(chuàng)造的濾音器在實(shí)驗(yàn)室中表現(xiàn)完美,但必須要指出,現(xiàn)實(shí)環(huán)境并沒有實(shí)驗(yàn)室那般理想。在實(shí)驗(yàn)室中,對于每個樣本中語音和背景噪音誰強(qiáng)誰弱,我們是事先知道答案的(“理想”指的就是這個)。但在實(shí)際應(yīng)用中,濾音器必須完全靠自己的能力,將語音從噪聲中分離出來。

仔細(xì)傾聽:在2013年拍攝的這張照片中,俄亥俄州立大學(xué)的研究人員正在測試一款基于深度神經(jīng)網(wǎng)絡(luò)、用來分離語音的機(jī)器學(xué)習(xí)軟件。左二穿藍(lán)色上衣的年長者正是本文作者汪德亮。

盡管如此,理想二元掩模能為理解語音提供極大幫助,這一事實(shí)具有重大意義。它表明,分類技術(shù)(監(jiān)督學(xué)習(xí)的一種形式)可以被用來模擬理想二元掩模,以此作為一種分離語音與噪聲的方法。依靠分類,機(jī)器通過完成訓(xùn)練、接收反饋、從實(shí)踐中吸取和牢記經(jīng)驗(yàn)教訓(xùn),來模擬人類的學(xué)習(xí)過程。從本質(zhì)上來說,我們小時候也是通過同樣的方法學(xué)會分辨蘋果和橘子的。

隨后幾年,我的實(shí)驗(yàn)室首先是嘗試通過分類來模擬理想二元掩模。大約在我們開發(fā)初代分類器的同時,卡內(nèi)基梅隆大學(xué)的一支團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)技術(shù),發(fā)明了他們自己的時頻單元分類方法,但目的有所不同,是用來改善自動語音識別。后來,德克薩斯大學(xué)的一支團(tuán)隊(duì)采用了一種不同的分類方法,在使用單聲道特征來提高語音理解方面第一次實(shí)現(xiàn)了重要進(jìn)展——這與雙耳捕捉到的雙聲道特征有很大區(qū)別。

但這些早期機(jī)器學(xué)習(xí)方法使用的分類技術(shù)仍然不夠強(qiáng)大或準(zhǔn)確,還無法真正讓助聽器佩戴者受益。在現(xiàn)實(shí)世界中,噪聲和語音的混合毫無規(guī)律可言,對于這樣的復(fù)雜場景,這些實(shí)驗(yàn)室方法根本無能為力。因此,我們需要一種更加強(qiáng)大的分類技術(shù)。

理想二元掩模+深度學(xué)習(xí)

我們的早期分類算法取得了比較理想的初步結(jié)果,于是我們決定接著走下去,對它進(jìn)行改良,讓它在嘈雜的現(xiàn)實(shí)環(huán)境中也能發(fā)揮作用。這個挑戰(zhàn)促使我們?nèi)プ鲆郧皬奈醋鲞^的事:打造一款基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)軟件,經(jīng)過復(fù)雜的訓(xùn)練過程后,可以將語音和噪聲分離。該軟件利用理想二元掩模,來引導(dǎo)對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。效果很不錯。在一項(xiàng)涉及24個測試對象的研究中,這款軟件使聽覺受損者的語音理解能力提高了大約50%。

可以說,神經(jīng)網(wǎng)絡(luò)就是一種軟件系統(tǒng),由眾多相對簡單的單元構(gòu)成,通過這些單元的協(xié)同工作,達(dá)到復(fù)雜的處理水平(系統(tǒng)的結(jié)構(gòu)大致上模擬了大腦神經(jīng)元網(wǎng)絡(luò)的工作方式)。在面對新的樣本時,神經(jīng)網(wǎng)絡(luò)像人腦一樣,通過調(diào)整連接線的權(quán)重來“學(xué)習(xí)”。

智能層:深度神經(jīng)網(wǎng)絡(luò)包含兩個或以上的處理層,位于輸入層和輸出層之間。信息通過輸入層輸入系統(tǒng)(左),輸出層輸出結(jié)果(右)。為了提高性能,研究人員可以調(diào)整系統(tǒng)的參數(shù)和層與層之間的連接。

神經(jīng)網(wǎng)絡(luò)有多種形態(tài)和大小,復(fù)雜程度不一。深度神經(jīng)網(wǎng)絡(luò)擁有至少兩個“隱藏的”處理層,它們不是直接與系統(tǒng)的輸入和輸出相連。每個隱藏層分析前幾層傳遞而來的結(jié)果,根據(jù)先驗(yàn)知識,加入新的考慮因素。

為了打造我們自己的深度神經(jīng)網(wǎng)絡(luò),我們先編寫算法,根據(jù)聲波的振幅、頻率和聲調(diào)的常見變化,提取出可以用來區(qū)分語音和噪聲的特征。我們識別出的特征有85個,最重要的特征包括聲音的頻率和強(qiáng)度(響亮還是輕柔)。

然后,我們對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,讓它利用這85個特征來區(qū)分語音和噪聲。訓(xùn)練分成兩個階段:在第一階段,我們通過無監(jiān)督學(xué)習(xí),設(shè)定程序的參數(shù)。也就是說,我們把特征的很多例子載入程序,好讓它事先了解以后在實(shí)際運(yùn)行過程中要分類的信號類型。

接下來,我們利用帶噪語音樣本及其理想二元掩模的相應(yīng)結(jié)果,來完成第二階段的訓(xùn)練,即監(jiān)督學(xué)習(xí)。那些“1和0”分類結(jié)果就如同考試題,用來不斷磨練程序區(qū)的能力。

如果神經(jīng)網(wǎng)絡(luò)輸出結(jié)果與理想二元掩模之間存在差異,就會被判為錯誤。經(jīng)過計算和,我們會相應(yīng)地調(diào)整神經(jīng)網(wǎng)絡(luò)連接線的權(quán)重,以便再次進(jìn)行同樣的分類時,使偏差縮小。對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練要經(jīng)過成千上萬次這樣周而復(fù)始的考試。

在這個過程中有一個重要的改進(jìn),就是建立了第二個深度神經(jīng)網(wǎng)絡(luò),對第一個網(wǎng)絡(luò)的結(jié)果進(jìn)行調(diào)整。第一個網(wǎng)絡(luò)專注于標(biāo)記各個時頻單元的特征,而第二個網(wǎng)絡(luò)會檢查特定單元附近幾個單元的特征。

為什么這個改進(jìn)效果很好?可以打個比方來解釋:如果說第一個網(wǎng)絡(luò)著眼于一套待售住宅的各個房間,那么第二個網(wǎng)絡(luò)就是用來考察住宅周邊的環(huán)境。換句話說,第二個網(wǎng)絡(luò)向第一個網(wǎng)絡(luò)提供了有關(guān)語音和噪聲的額外背景,從而進(jìn)一步提高了分類的準(zhǔn)確性。

讓人欣喜的考試成績

監(jiān)督訓(xùn)練結(jié)束時,深度神經(jīng)網(wǎng)絡(luò)分類器在分離語音和噪聲方面明顯優(yōu)于以前的方法。事實(shí)上,在依靠單聲道技術(shù)的所有算法中,這種算法在幫助聽障者理解帶噪語音方面首次取得重大進(jìn)步。

接下來我們進(jìn)行了人類實(shí)測。我們請12位聽障者和12位聽覺正常者通過耳機(jī)聽取嘈雜環(huán)境中的句子樣本。樣本成對出現(xiàn):首先是語音和噪聲同時發(fā)生,然后是用我們基于深度神經(jīng)網(wǎng)絡(luò)打造的程序處理同一個樣本。句子中有兩種噪音,一種是持續(xù)的嗡嗡聲,另一種是很多人同時說話的嘰嘰喳喳聲。

在經(jīng)過程序處理后,兩組實(shí)驗(yàn)對象的聽力理解能力均出現(xiàn)大幅提升。在沒有經(jīng)過程序處理的情況下,聽力受損者在嗡嗡聲的環(huán)境中只能懂36%的單詞,經(jīng)過程序處理后,這個比例提高到86%。在嘰嘰喳喳的嘈雜環(huán)境中,他們一開始只能理解29%的單詞,而經(jīng)過程序處理后,能理解的單詞提升到84%。

對于聽力正常者,在第一種噪音環(huán)境中,他們的理解力從37%提高到80%;第二種環(huán)境中,這個數(shù)字從42%提高到78%。

在我們的實(shí)驗(yàn)中,最引人注目的一個結(jié)果是,聽力受損者在程序的幫助下,理解能力甚至可以超過聽力正常者。憑借這些結(jié)果,可以自豪地說,我們這套基于深度神經(jīng)網(wǎng)絡(luò)打造的程序,是迄今為止最接近于解決雞尾酒會問題的一種技術(shù)。

當(dāng)然,該程序的能力也存在局限性。例如,在我們的樣本中,掩蓋語音的噪音類型非常類似于程序在訓(xùn)練過程中分類的噪音類型。想要在現(xiàn)實(shí)生活中發(fā)揮作用,程序需要迅速學(xué)會濾除很多的噪音類型,包括不同于它已經(jīng)碰到過的類型。例如,通風(fēng)系統(tǒng)的嘶嘶聲不同于冰箱壓縮機(jī)的嗡嗡聲。另外,我們使用的帶噪樣本中,并沒有將回聲包括進(jìn)去,而回聲會使雞尾酒會問題變得更加復(fù)雜。

在得到那些早期研究結(jié)果后,我們又購買了一個為電影制片人設(shè)計的聲效數(shù)據(jù)庫,用其中的1萬種噪音,進(jìn)一步訓(xùn)練我們的程序。2016年,我們發(fā)現(xiàn),重新訓(xùn)練后的程序可以對抗全新的噪音,顯著改善理解能力。目前,我們正在更多的環(huán)境中運(yùn)行該程序,讓更多的聽覺受損者測試它。

最終,我們相信該程序可以在性能強(qiáng)大的計算機(jī)上進(jìn)行訓(xùn)練,直接嵌入助聽器或者通過藍(lán)牙等無線連接方式與智能手機(jī)協(xié)同工作,向耳機(jī)提供經(jīng)過處理的實(shí)時信號。而且制造商還可以通過發(fā)布加強(qiáng)版的軟件補(bǔ)丁來不斷提高助聽器的性能。

有了這種方法,雞尾酒會問題不再像幾年前那樣令人怯步。通過在更多的噪音環(huán)境中進(jìn)行更廣泛的訓(xùn)練,我們和其他人現(xiàn)在開發(fā)的軟件有望最終克服這一難題。這個過程就像小孩學(xué)習(xí)分離語音和噪聲的過程,也就是不斷地暴露于各種各樣的語音和噪聲環(huán)境中。通過更多的練習(xí),這種方法只會越來越好。這就是其魅力所在。

責(zé)任編輯: 劉偉
版權(quán)聲明:
·凡注明來源為“今日報道網(wǎng)”的所有文字、圖片、音視頻、美術(shù)設(shè)計和程序等作品,版權(quán)均屬今日報道網(wǎng)所有。未經(jīng)本網(wǎng)書面授權(quán),不得進(jìn)行一切形式的下載、轉(zhuǎn)載或建立鏡像。
·凡注明為其它來源的信息,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
不良信息舉報信箱 網(wǎng)上投稿
關(guān)于本站 | 廣告服務(wù) | 免責(zé)申明 | 招聘信息 | 聯(lián)系我們
今日報道網(wǎng) 版權(quán)所有 Copyright(C)2005-2016 魯ICP備16043527號-1

魯公網(wǎng)安備 37010402000660號