基于条件随机场的音乐领域命名实体识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:is_youfeeling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于音乐数量的大量增长,人们迫切需要实现对音乐文本信息的自动化抽取、识别和分类,信息提取首要的关键任务就是命名实体识别(Name EntityRecognize,NER)。命名实体识别在应用自然语言处理的实践中有重要的作用,是信息提取等各种自然语言处理方式的重要基础工具。因此音乐领域的NER也是一件非常重要且有意义的研究项目。本文是基于条件随机场(Conditional Random Fields,CRF)音乐领域的命名实体识别,其中,本文所需要识别的命名实体类型主要有4种:歌手名、组合名、音乐名、专辑名。条件随机场的一个最大的优势是,在处理输入的各种随机的、非独立的特征时,具有很大的灵活性,且很好的解决了标记偏置问题,所以本文采用条件随机场模型CRF进行在音乐领域的命名实体识别系统。而命名实体识别的首要任务就是语料的获取,本文所建立的语料库内容主要是采用网页挖掘的方法从搜狐音乐、新浪音乐等音乐门户网站上获取的,经过对语料进行净化、分句、标注、划分类别、预处理等步骤完成语料的获取工作,其中由于音乐领域还没有已经整理好的语料库,所以本文的标注工作的尤为繁琐,在命名实体识别的数据准备过程中,还收集了各种音乐领域的词典,用来进行特征文件的预处理中添加属性列和进行词典特征匹配。和其他领域的命名实体识别相类似,音乐领域的命名实体识别中特征函数的选择及特征模板的建立对识别的结果的影响很大,也是命名实体识别中的难点。本文中分别提取了对应歌手名、组合名、专辑名、歌曲名的基本特征、前后缀特征、字典特征和综合特征,并说明了本次系统中特征选择及特征模板的建立过程,而且在应用不同特征的情况下进行了对比实验。本文中还给出了音乐领域的命名实体识别系统的框架。在系统的实验中,获得了较高的准确率的实验结果,并与基于其他模型进行对比实验,实验结果证明了CRF能够较好的应用于在音乐领域的NE识别中,且准确率与其他模型相比具有一定的优势。
其他文献
<正> 加入WTO之后,我国将对外商开放更多的投资领域,其中开放度变化较大的是第三产业领域。这将导致外商对第三产业的投资较大幅度增加,投资比重上升,相应地,外商对第二产业
开放教育教育管理专业(专科)的教育实习是集中实践环节的一项重要内容,但其在实施过程中存在着不少问题和需要改进的地方。本研究采取内容分析法,以电大教育管理专业实习记录册为
休闲渔业是农业部制定的现代渔业五大产业之一,作为休闲渔业的一种模式之一,水上体验式渔业休闲活动深受人们喜爱,市场潜力巨大。休闲渔船这一休闲载体的出现,给行业安全管理
受全球金融危机、市场供过于求以及欧元对肯尼亚先令和美元升值的影响,肯尼亚对主要出口市场欧盟的鲜花出口价格过去一个月下跌25%。
DF100A型100KW短波发射机是一种比较重要的发射装置,对于我国通信事业的发展具有重要的意义。近年来,随着我国科学技术水平的不断提高,DF100A型100KW短波发射机的性能变得越
世界上首部植物基因组染色体图谱日前由中国科学家编撰完成。这部书收录了1978年~2008年我国各地近4000种经济植物的基因组染色体资料,其中珍贵野生物种年龄超过5000岁。这部名
<正> 随着改革开放的不断发展,我们大庆油田所需供电量不断增加。目前,大庆有220kV、110kv和35kV电压等级的大中型变电所120多座,大型主变压器240多台,配电变压器9000多台。
随着经济全球化推动亚太经济不断向纵深发展,亚太互联经济已成为全球性议题。文章运用国际政治经济学的分析框架,从全球价值链的视角分析认为,中国等主要经济体已经成为亚太
成本的控制是工程建设中一项重要的内容,对工程的顺利实施起着关键性的作用。成本的控制涉及到方方面面,对相关人员提出了很大的要求,必须在思想上意识到成本控制的重要意义,
教师培训工作是高校师资队伍建设的一项重要任务。要认清现阶段高校教师培训工作中存在的种种问题,转变观念、创新思想。采取多元化和科学的培训模式,培养教师具有良好的师德修