语音识别中声学模型 (主流语音识别系统的声学模型)

在口语理解（SLU）中，用户所说的内容被转换为他/她的意图。最近关于端到端SLU的工作表明，通过预训练方法可以提高准确性。我们重新审视Lugosch等人提出的想法，使用语音预训练和三模块建模；然而，为了便于构建端到端SLU模型，我们使用来自DNN-HMM混合自动语音识别（ASR）系统的开源声学-语音模型作为我们的音素模块，而不是从头开始训练一个。因此，我们只对单词模块的语音进行微调，并在单词和意图模块上应用多目标学习（MTL）来共同优化SLU性能。MTL使意图分类错误率相对减少40%（从1.0%到0.6%）。请注意，我们的三模块模型是一种流式的方法。所提出的三模块模型方法的最终结果是在FluentSpeech上产生了99.4%的意图准确性，与Lugosch等人的方法相比，意图错误率降低了50%。

《Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-trained DNN-HMM-Based Acoustic-Phonetic Model》

论文地址:http://arxiv.org/abs/2204.03315v1

语音识别声学模型,网络语音识别声学模型