论文部分内容阅读
由于音乐数量的大量增长,人们迫切需要实现对音乐文本信息的自动化抽取、识别和分类,信息提取首要的关键任务就是命名实体识别(Name EntityRecognize,NER)。命名实体识别在应用自然语言处理的实践中有重要的作用,是信息提取等各种自然语言处理方式的重要基础工具。因此音乐领域的NER也是一件非常重要且有意义的研究项目。本文是基于条件随机场(Conditional Random Fields,CRF)音乐领域的命名实体识别,其中,本文所需要识别的命名实体类型主要有4种:歌手名、组合名、音乐名、专辑名。条件随机场的一个最大的优势是,在处理输入的各种随机的、非独立的特征时,具有很大的灵活性,且很好的解决了标记偏置问题,所以本文采用条件随机场模型CRF进行在音乐领域的命名实体识别系统。而命名实体识别的首要任务就是语料的获取,本文所建立的语料库内容主要是采用网页挖掘的方法从搜狐音乐、新浪音乐等音乐门户网站上获取的,经过对语料进行净化、分句、标注、划分类别、预处理等步骤完成语料的获取工作,其中由于音乐领域还没有已经整理好的语料库,所以本文的标注工作的尤为繁琐,在命名实体识别的数据准备过程中,还收集了各种音乐领域的词典,用来进行特征文件的预处理中添加属性列和进行词典特征匹配。和其他领域的命名实体识别相类似,音乐领域的命名实体识别中特征函数的选择及特征模板的建立对识别的结果的影响很大,也是命名实体识别中的难点。本文中分别提取了对应歌手名、组合名、专辑名、歌曲名的基本特征、前后缀特征、字典特征和综合特征,并说明了本次系统中特征选择及特征模板的建立过程,而且在应用不同特征的情况下进行了对比实验。本文中还给出了音乐领域的命名实体识别系统的框架。在系统的实验中,获得了较高的准确率的实验结果,并与基于其他模型进行对比实验,实验结果证明了CRF能够较好的应用于在音乐领域的NE识别中,且准确率与其他模型相比具有一定的优势。