论文部分内容阅读
口语测试自动评估技术是计算机辅助语言学习领域的重要研究内容。本文针对该领域中朗读与问答题型的自动评估技术做了深入的研究,其中包括朗读和问答题型的自动评分和发音错误的自动诊断。
当前主流的朗读题目的自动口语评估,主要采用的是基于准确率、发音、声调、语速、重音等多特征融合的方法;而主流的发音错误自动诊断技术采用的是声学后验概率计算的GOP方法;此外,目前还没有专门的研究涉及到问答题型的自动评估。在此基础上,本文在该领域的主要贡献和创新点归纳如下:
1.提出了二次多模型强制切分计算后验概率的方法,用于发音错误自动诊断。通常的GOP方法对于音素边界比较模糊的发音难以得到较好错误检测结果,而本文提出的多模型二次强制切分后验概率计算法,能够明显提高发音错误自动检测系统的性能。
2.提出了混淆矩阵增强的后验概率向量方法,用于发音错误自动诊断。对于基于后验概率的方法诊断性能较差的音素集合,本文利用混淆矩阵增强的后验概率向量对音素建模,从而获得对应的音素分类器,该音素分类器能够有效地提高发音错误自动诊断的性能。
3.提出了基于文本相似度计算的语义评估方法,用于问答题型的自动语义评估。该方法通过对问答题上下文文本建立有限状态机对齐模型,之后在对齐数据上计算基于词语相似度的特征作为自动语义评估得分。该方法在标注文本的测试集合上能够达到和人工评分相近的评估结果。
4.提出了基于向量空间模型的N元语法语义评估方法,用于问答题型的自动语义评估。该方法将测试语音通过识别得出的音素混淆网络映射到向量空间模型中,并提取其与参考答案之间的多维相似度特征,最后拟合得出语义评估得分。该方法在实验中可以达到较好的语义评估效果。
5.建立了朗读和问答题的评估系统,其中同时包含了发音错误自动诊断功能,并将其应用于实际的口语测试评估项目,从实践的角度有力地验证了本文方法的可行性与有效性,并取得了比较满意的结果。