當前位置:股票大全官網 - 股票行情 - 語音識別中區分性訓練的最大似然估計有什麽區別?

語音識別中區分性訓練的最大似然估計有什麽區別?

語音識別系統的總體框架如左圖所示,分為訓練和解碼兩個階段。訓練,即通過大量標註的語音數據訓練聲學模型,包括GMM-HMM、DNN-HMM和RNN+CTC等。解碼,即通過聲學模型和語言模型將訓練集外的語音數據識別成單詞。目前常用的開源工具有HTK語音識別工具包、Kaldi ASR和TensorFlow(語音轉文字波網)來實現端到端的系統。我以古老而經典的HTK為例,來解釋語音識別領域所涉及的概念和原理。HTK為語音數據處理、訓練和解碼提供了豐富的工具。語音識別分為孤立詞和連續詞語音識別系統。早期,1952的貝爾實驗室和1962的IBM都實現了孤立詞識別系統(特定人的數字和單個英語單詞)。連續單詞識別,由於不同的人在不同的場景下會有不同的聲調和停頓,所以單詞邊界很難確定,分段幀數也不壹定相同;而且識別結果需要語言模型在評分後進行處理,才能得到符合邏輯的結果。