鄧力:以獨特視角詮釋語音識別領域新技術進展
鄧力:我們在�12章講了遷移學�,并舉了用其他語言的語料幫助一個特定語言的語音識別的例子??缯Z言能共享DNN隱層架構有很強的物理和認知的基礎。不論什么語言,其發音器官(主要包括聲道和聲門)大體相�。人類語音感知機制是同生成機制緊密相連的。所以DNN作為語音感知層的模型在高層上共享隱層是很自然的思想�
12章講的所有例子都是基于音素及其左右context作為基本語音單元。我覺得如果能把喬姆斯基的生成式音韻結構用上來定義基本語音單元做遷移學習,至少理論意義會更大。共享隱層的基礎會更扎實些,因為用音韻結構定義的語音感知單元就是按照人類發音器官跨語言共享的總體特性來決定��
從更廣闊的意義上�,遷移學習可以成為完成非監督學習的重�“知識�”之一,特別當數據和問題本身有組合特性的時候。上月開完的CVPR有一篇很好的關于“DeepCompositionNet”的論文,用到的遷移學習很巧妙很有�。語音領域里的這種組合特性更豐富,特別在于怎樣將音素(類比為分子)分解為phonologicalfeatures(類比為原子)。而且這種分解組合�“features”之間非同步的時程演化有關。這是語音很有趣的特��
記者:當前熱門的LSTMRNN被高估了��
鄧力:熱門而古老的LSTMRNN確實很有�。GRU簡化了LSTM不少,也類似有效。但要注意,把它們用到語音識別時必須用HMM的動態規劃或者CTC來處理LSTMRNN的輸�。手寫體字的識別也一�。但用到自然語言處理就不需要這樣多此一�,因為輸入輸出的序列沒有像語音和手寫體識別那樣的segmental特��
LSTMRNN的之一Schmidhuber教授近日正好來到西雅�。我們又一次在一起討�,也談起LSTMRNN在語音識別和其他領域(包括增強學習方面)的重要應用。我不覺得有被高��
記者:書中介紹了一系列的未來技術方�,其中哪些是您的團隊所關注的?您如何確定一個技術研究的方向�
鄧力:英文版的書是在2014年中完稿�。近兩年來深度學習發展很��15章后一節提到的一系列的未來技術方�,不少方面至今已經有很大的進展。書完稿之后又很快出現新的技術研究的方向�
我領導的團隊現在主要聚焦在自然語言語義理解及其在對話系統(包括聊天機器人)上的應用。語音的進一步進展目前相對是次�,因為識別率已經高到在對話系統上可以使用的地步了�
確定技術研究的方向有幾個因素要結合,包括其潛在的對工業界和學術界的影響�,實際應用的可能性和廣泛�,創新價值和新穎�,能否利用現有技術積累比較快速地實現,等�。當然也包括團隊有無激情和能力把它做成。所以團隊的質量重要。我領導的團隊近年來靠公司內部富有激情和高度能力的強手隊員做了幾項很有影響力的深度學習大項目,但因涉及商業應用尚未對外發表,這在一定程度上對吸引公司外部的強手起了負面作用。我們正在設法改變這種狀�,使我們的團隊更加強壯�
記者:訓練關鍵的發音特征并泛化,目前有什么樣的進展?您認為技術成熟還需要什么條��
鄧力:剛才提到我們目前的精力主要在自然語言理解,我近來沒有跟蹤這方面的進展。但我認為有效利用語音composition特性來做基于遷移學習的泛化是一個方向,因為發音特征的變化往往是源于個別發音器工作的微小變化,并非某個音素整體的變化�
記者:未來三五年的ASR領域,是否還有一些非深度學習方法具有挖掘的潛力(或者可以和深度學習進行結合實現更好的效果)�
鄧力:像英文和普通話中文已有比較大量的有標注的訓練數據,深度神經網絡應為主干以達到識別效�。整合深度生成模型有助于進一步提高識別效��
對于低資源的語言或中文的很多方言,有標注的訓練數據不�?;谪惾~斯網絡的生成模型可能更有效。同時,Kernel非線性方法(非深度模型)也就不受大數據scalability的限��
在所有以上情形里,在非監督深度學習成功之后,它們的識別效果都會有很大的提升,因為更多無標注的語音數據可以被有效地加以應��
增強學習的作�
記者:AlphaGo的進展讓世界注意到了增強學�,您認為(深度)增強學習在語音識別領域能發揮什么樣的作��
鄧力:增強學習的本質是階段性的優化過程,同時增強信號或�“標注”的信號只是到終點階段才清楚(好比AlphaGo下的圍棋后誰贏誰輸),或者對在每階段都有的增強信號不值得過于介意(不像有監督學習的標注那樣介意到把它直接當作目標去優化逼近)因為這種增強信號只起局部性的參考估值(evaluative)作�。這些例子是我們團隊正在做的不同類型的聊天和對話機器人的場��
對語音識�,每個句子標注的信號價值都很高,而且我們真把它當作目標去優化逼近來訓練系統參�。所以這是一個典型的有監督學習問題(或者在不久將來會成為非監督學習問題�,并不是增強學習問題。但如果把語音識別作為整個語音對話系統的一部分,而且用端到端深度增強學習方法來優化整個系�,那么語音識別器的參數會跟有監督學習得到的結果略有不�,因為語音識別器的參數會受端到端深度增強學習影響,盡管增強學習主要是用到整個語音對話系統系統優化的后端�
所�,初看起來好像以序列結構為輸出的語音識別和增強學習都用到動態規劃來做訓練和測�,但它們的目的是很不一樣的�
非監督學習語音識別的關鍵
記者:您多次表示看好語音的非監督學習,并且書中還談到了詞嵌入,未來詞嵌入的引入會是語音領域非監督學習的大殺器嗎�
鄧力:兩年前我們在寫這本書后一章后一節�,我們將詞嵌入的利用和改善作為一個未來方�。之后我對這個問題有更多的思�。下面利用這個采訪機會小結一��
非監督深度學習的本質是在無標注數據的條件下要能夠有效地將各類相關�“先驗”知識整合到一個完整而能快速計算和優化的深度學習框架。我的這個觀念同其他說非監督深度學習的專家很不同??赡芩麄冞€沒想得那么清楚和深入。我常對新加入我團隊和做機器學習理論的同事說,我的這個觀念可以又稱為“有無限實際價值的非監督深度學�”,而不是大家在機器學習書本、wikipedia和文獻上看到的幾乎是沒多少實際價值的非監督學��
說到先驗知識,我們就看到貝葉斯方法很重要,不能單用神經網�。一定要做到有原則性的整合�
詞嵌入的本質是利用了詞在句子中分配特�,也就是鄰近詞的預測特性(近見到一些深度學習專家談到用類似的預測特性做有關視頻的非監督深度學習�。但這只是所應該用的先驗知識的一小部�。更重要的先驗知識應該是關于輸出序列變量的強統計特�,也就是如何把大型且高質量的語言模型用到全系統學�,并且同時有效地用上極大量無標注的語音數據�
說到詞嵌入或音素嵌入用到語音識別領域,我覺得更有意思的是把喬姆斯基的生成式音韻結構整合到深度學習講的嵌入方法里。我在MIT時(1992-1993)同我的學生孫曉東把喬姆斯基的生成式音韻結構用到GMM-HMM的輸出層上得到很有意思的結果�1994年在JASA發表了很長的論文。記得當年Hinton教授從多倫多到MIT訪問我時,討論到是否能把這種生成式音韻結構知識用到神經網絡架構上。當時沒繼續進展,也許現在可以在這方面開展一些工��
同樣重要的是關于語音生成的先驗知識加上從其他任務中學來的知識。對抗式網絡的思路是可以用來整合語音生成知識到動態深度神經網絡的方法之一。這里有很多好的研究可以做�
當然關于輸入變量的統計特性對非監督深度學習也很重�,比如在傳統意義上講的非監督學習的自動分�。我同伯克利大學的BinYu教授有很多這方面的討論。但對語音領域這后者不是那么容易用得好,因為語音有很特殊的動態特��
很多這些想法都還沒寫到我們的書里。在�2�3�6�15章里,只是略提了一��
類腦機器智能突破現有神經網絡的局�
記者:您關注的類腦機器智能是否局限于神經網絡?如果不�,能否介紹您在這方面的新研究及其在語音方面的應��
鄧力:類腦機器智能同神經網絡關系�。直接有關的是如何利用神經脈沖特性,包括用STDP來改善現有的神經網絡和算�。早�2013年溫哥華的ICASSP大會期間,Hinton教授是我請來做主題演講的,我們當時開會期間就談了很多關于STDP的問�,包括STDP同BackProp的緊密關系以及可能的BackProp改善使它更相符人腦的運行機制。還有很多相似的類腦機制很可能將來會對現有的深度神經網絡算法和機器智能產生顯著的影響�
至于神經網絡以外�,這要看你怎樣定義神經網絡——深層生成式模型可以屬于神經網�,也可以屬于非神經網絡的圖模型或貝葉斯網�。后者著重于將應用領域的知識(比如語音識別中的從發音器官的控制到發音器官的運動再到聲音的產生的一系列因果關系)用疏散的矩陣把隨機變量“節�”連接起來。并著重于用統計分布來描述非確定�,因為現實應用領域的知識很少是確定無暇的。這類深層生成式模型比較難用類腦的機制和算法來改善。如果能用GPU加速運算就不錯了。事實上就連這也沒那么簡��
對可以當成神經網絡看待的深層生成式模�,類腦機器智能的潛力很大。這種模型撇開應用領域的知識而用統一的密集矩陣來參數化整個模型。不但用GPU加速運算就像DNN一樣容�,不少類腦機制和認知科學理論也可以比較直接用��
說到認知科學理論用于類腦機器智能,我領導的團隊正在同美國一所大學的教授合作開發一個新型的基于高維張量的結構表征和知識�。這個項目由我親手抓,它直接受啟發于人腦對純符號樹狀或圖狀結構的表征。這對于自然語言和知識的組織利用和增長都非常關鍵�
長遠看來,類腦機器智能一定會突破現有的深度神經網絡存在的許多局限。我的團隊在以上方面的工作目前大部分用在自然語言語義理解、對話系統和知識整合諸方面的利用。語音識別方面的問題相對簡單一點�
- 全年征稿 / 資訊合作聯系郵箱�[email protected]
- 凡本網注�"來源:智能制造網"的所有作�,版權均屬于智能制造網,轉載請必須注明智能制造網,http://www.lfljgfsj.com。違反者本網將追究相關法律責任�
- 本網轉載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或證實其內容的真實�,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒�、網站或個人從本網轉載時,必須保留本網注明的作品來源,并自負版權等法律責任�
- 如涉及作品內�、版權等問題,請在作品發表之日起一周內與本網聯�,否則視為放棄相關權��
- 01國家數據局綜合司關于征集數據基礎設�
為落實《國家數據基礎設施建設指引》(簡稱《建設指引》)�[詳細]
- 02三豐精密量儀展示全球領先測量技�
在高端制造業快速發展的背景�,精密測量技術作為產業的“眼[詳細]
- 03西安市農機總站調研蔬菜機械化助力優勢
日前,陜西省西安市農機總站技術人員赴高陵區全季西紅柿示�[詳細]
- 04選農機我只信賴東方紅
在農機化發展進程中,有無數像閔田這樣的普通農機手,他們信[詳細]
- 05廣東省通信管理局召開整治騷擾電話專項
加大技術研發投�,利用大數據、人工智能等技術手�,加強對[詳細]
- 06新簽項目76�!盈峰環境去年凈利潤增長�3%
2024�,盈峰環境實現營業收�131.18億元,同比增�3.85%�[詳細]
- 07協會主軸分會2025年第一次理事會議及技
4�22日下午,召開主軸分會2025年第一次理事會議,分會理事[詳細]
- 08先鋒電子2024年凈利潤2647.42萬元 同比
第一季度,公司實現營業收�1.15億元,同比增�13.68%。歸�[詳細]
- 01十部門聯合發文,推動交通運輸與能源融合發展
《關于推動交通運輸與能源融合發展的指導意見》近日印發,�[詳細]
- 02一周趣評:穿戴式單人飛行器首飛;亞馬遜被傳放緩數據中心擴張
2025�4�21�-4�27日,飛行器、數據中心、A14芯片、辦公平[詳細]
- 03AI已經成為人形機器人最大的瓶頸�
在看似繁榮的表象�,行業共識正在逐漸浮現:人工智�(AI)技[詳細]
- 04南充市推進農業機械化轉型升級助推農業
截至目前,全市農作物耕種收綜合機械化率達�60.5%,首次超[詳細]
- 05廣州資源環保公司與越南進盛投資戰略合作
4�22�,廣州資源環保公司與越南進盛投資簽署戰略合作協議[詳細]
- 06國家數據局綜合司關于征集數據基礎設�
為落實《國家數據基礎設施建設指引》(簡稱《建設指引》)�[詳細]
- 07先鋒電子2024年凈利潤2647.42萬元 同比
第一季度,公司實現營業收�1.15億元,同比增�13.68%。歸�[詳細]
- 08新簽項目76�!盈峰環境去年凈利潤增長�3%
2024年,盈峰環境實現營業收入131.18億元,同比增�3.85%�[詳細]
- 01霸王茶姬上市!成美股“中國茶飲第一�
中國茶飲品牌霸王茶姬正式在美國納斯達克上�,成為中國茶�[詳細]
- 02關于征集人工智能領域國家標準起草單位
根據“國家標準化管理委員會下達的2024年第七批推薦性國家標[詳細]
- 03快訊|螞蟻集團和中國移動計劃投資宇樹科技
機器人獨角獸公司宇樹科技計劃引入新投資方,包括螞蟻集團和[詳細]
- 04零部件企業跨界具身智�,能掀起多大風
汽車零部件企業紛紛躬身入局,緊跟整車企業的步伐,毅然闖�[詳細]
- 05最“燒錢”的補能和芯�,蔚來扎進去�
從資本市場到圈內人士,對蔚來依舊堅持高研發投入,建設換電[詳細]
- 06世界最小無人機誕生:直徑不�1厘米�
這款飛行機器人堪稱目前世界上實現可控飛行的最小無線機器人[詳細]
- 07AI賦能制造業:邁向實時化與智能化的未
AI技術正在深刻改變制造業的生產方式和管理模式。本文將深入[詳細]
- 08全球首個跨本體協作框架問世!可支持�
RoboBrain已集成超百億參數的多模態大模�,支持對自然語言[詳細]