在口语理解(SLU)中,用户所说的内容被转换为他/她的意图。最近关于端到端SLU的工作表明,通过预训练方法可以提高准确性。我们重新审视Lugosch等人提出的想法,使用语音预训练和三模块建模;然而,为了便于构建端到端SLU模型,我们使用来自DNN-HMM混合自动语音识别(ASR)系统的开源声学-语音模型作为我们的音素模块,而不是从头开始训练一个。因此,我们只对单词模块的语音进行微调,并在单词和意图模块上应用多目标学习(MTL)来共同优化SLU性能。MTL使意图分类错误率相对减少40%(从1.0%到0.6%)。请注意,我们的三模块模型是一种流式的方法。所提出的三模块模型方法的最终结果是在FluentSpeech上产生了99.4%的意图准确性,与Lugosch等人的方法相比,意图错误率降低了50%。
《Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-trained DNN-HMM-Based Acoustic-Phonetic Model》
论文地址:http://arxiv.org/abs/2204.03315v1




