基于机器学习方法与搜索引擎验证的缩略语预测

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:gongfangqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缩略语在自然语言中被大量应用,是未登录新词的一大“贡献者”,给自然语言处理带来了诸多困难。在汉语分词、词性标注、命名实体识别、机器翻译和信息检索等领域都受到了缩略语问题的干扰。大规模的完整形式与缩略语对照库是解决上述问题的重要资源。从完整形式出发推导缩略形式是构建对照库的途径之一。这一过程也称为缩略语预测。在自然语言中广泛使用的缩略语是重要的新词来源之一,成为了自然语言处理的一大问题.本文研究了从完整形式预测缩略语形式的方法.首先,使用CRF模型对完整形式预测,形成一定量的缩略候选,再利用搜索引擎得到的结果信息对各候选依次评估,通过打分和重排序,选择最终缩略结果.实验结果表明,增加网络信息之后,预测的缩略语准确率(top-1)可以提高5个百分点。
其他文献
文章讨论了藏语单音动词的标注问题,认为藏语单音动词分为有词形变化的不规则动词和无词形变化的不规则动词两类,前者可利用词形变化表识别和标注,后者需要建立句法识别规则
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特
会议
介绍了多媒体电话话费语音查询、催缴系统。着重围绕如何利用多媒体技术、计算机网络技术与邮电实际业务相结合的问题,阐述了实现实时语音查询、催缴功能与技术要求的方法及体
当代艺术的悲哀是使自己脱离普遍的公众 ,企图运用博物馆、商店里旋转的展示来接近有利可图的消费者 ,艺术要保持强壮的要求十分清楚。但在另一个方面 ,艺术家也要通过各种手
美国开发全数字式高清晰度电视胡德森译编在高清晰度彩色电视技术方面,美国的数字技术正日渐显出优势,大有压倒国外模拟系统,成为未来电视霸主之势。1992年3月,美国联邦通讯委员会负责
为探索流行性脑脊髓膜炎(流脑)的流行规律和流行特征 ,现将本县47年(1952~1998年)疫情资料分析如下。1资料来源资料来自1952~1998年全州县法定报告传染病发病、死亡统计表 ,1952~1998年全州县历年人口资料。2结果
一方水土滋养着一方人,一个民族传承着一种文化。落居在滇西北高原上的大理白族自治州洱源县西部山区的凤羽、炼铁、西山等地的白族聚居区的白族人家每逢破土凿石,竖柱上梁,
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检验,都使得汉语现有词类体系和词类知识暴露出
会议
一次移动电话基站雷击原因的分析及预防措施襄樊市邮电局梁生耀1995年8月10日晚7时30分左右,南漳县邮电局电信楼受到雷电影响,市电供电中断,电信楼供电空气开关跳闸。经恢复供电,移动电话基
本文研究了非监督的中文短语结构句法分析.首次精确重现了Rens Bod在中阐述的非监督数据驱动模型U-DOP.应用U-DOP方法在CTB上达到了提出该方法的原始文献所报道的结果,同时,
会议