語音識別中區分性訓練的最大似然估計有什麽區別？

語音識別系統的總體框架如左圖所示，分為訓練和解碼兩個階段。訓練，即通過大量標註的語音數據訓練聲學模型，包括GMM-HMM、DNN-HMM和RNN+CTC等。解碼，即通過聲學模型和語言模型將訓練集外的語音數據識別成單詞。目前常用的開源工具有HTK語音識別工具包、Kaldi ASR和TensorFlow(語音轉文字波網)來實現端到端的系統。我以古老而經典的HTK為例，來解釋語音識別領域所涉及的概念和原理。HTK為語音數據處理、訓練和解碼提供了豐富的工具。語音識別分為孤立詞和連續詞語音識別系統。早期，1952的貝爾實驗室和1962的IBM都實現了孤立詞識別系統(特定人的數字和單個英語單詞)。連續單詞識別，由於不同的人在不同的場景下會有不同的聲調和停頓，所以單詞邊界很難確定，分段幀數也不壹定相同；而且識別結果需要語言模型在評分後進行處理，才能得到符合邏輯的結果。