深度學習在語音識別中的主要問題和難點是什麽？

深度學習的應用:長期以來，在語音識別系統中，大多采用高斯混合模型(GMM)來描述各個建模單元的統計概率模型。該模型因其估計簡單、適合海量數據訓練、判別訓練技術成熟，在語音識別應用中長期占據壟斷地位。然而，這種混合高斯模型本質上是壹種淺層網絡建模，不能完全描述特征的狀態空間分布。另外，GMM建模的特征維數壹般是幾十維，不能完全描述特征之間的相關性。最後，GMM模型本質上是壹種似然概率模型。辨別訓練雖然可以模擬壹些模式類之間的辨別，但是能力有限。微軟研究院的語音識別專家鄧麗和於冬自2009年以來壹直與深度學習專家GeofferyHinton合作。2011年，微軟宣布基於深度神經網絡的識別系統取得成果並推出產品，徹底改變了語音識別原有的技術框架。采用深度神經網絡後，可以充分描述特征之間的相關性，將連續幀的語音特征組合起來形成壹個高維特征。最終的深度神經網絡可以通過高維特征訓練來模擬。由於深度神經網絡采用的是模擬人腦的多層結果，因此可以分步提取信息特征，最終形成適合模式分類的理想特征。這種多層結構與人腦處理語音和圖像信息時非常相似。深度神經網絡的建模技術可以在實際的在線服務中與傳統的語音識別技術無縫結合，在不造成系統任何額外成本的情況下，大大提高了語音識別系統的識別率。在線使用方法如下:在實際解碼過程中，聲學模型仍然是傳統的HMM模型，語音模型仍然是傳統的統計語言模型，解碼器仍然是傳統的動態WFST解碼器。然而，在計算聲學模型的輸出分布時，神經網絡的輸出後驗概率乘以壹個先驗概率來代替傳統HMM模型中GMM的輸出似然概率。在實踐中，百度發現與傳統的GMM語音識別系統相比，相對誤識率可以降低25%。最終在2012，11，百度推出了首個基於DNN的語音搜索系統，成為首批采用DNN技術進行商業語音服務的公司之壹。

在國際上，Google也采用深度神經網絡進行聲音建模，是最早突破深度神經網絡工業應用的企業之壹。但是Google產品使用的深度神經網絡只有4-5層，而百度使用的多達9層。這種結構性差異的核心在於，百度更好地解決了深度神經網絡在線計算的技術難題，因此百度的在線產品可以采用更復雜的網絡模型。這對於未來擴展海量語料的DNN模型訓練有更大的優勢。