基于中文网页搜索日志的复杂命名实体识别研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ppasu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂命名实体指那些指代对象具体、字面特征不明显、与人们日常生活和休闲娱乐活动密切相关的实体名,比如电影名、餐馆名、大学名等等。复杂命名实体的识别不仅能够形成一种重要的数据资源,给互联网上的信息抽取提供基础,还有助于搜索引擎理解用户的查询意图,从而给出有针对性的、整合的搜索结果。   人们遇到未知信息已经习惯于用搜索引擎进行查询,这使网页搜索日志中不断积累新的复杂命名实体。网页搜索日志已经成为识别复杂命名实体的重要数据资源。   本文收集并整理了一亿三千多万条网页搜索的查询词,对其进行了整理和分析,并在此基础上完成了识别算法的设计和识别系统的实现。主要的工作有以下几点:   根据网页搜索日志中的复杂命名实体的分布和上下文特征,本文将中文网页搜索日志中的复杂命名实体识别问题转化为类似文本分类的问题,从而使文本分类、特征选择以及关联规则挖掘等现有技术得以应用。实验表明,结合特征选择技术和关联规则挖掘技术的识别算法,六个类别的平均P@500达到了77%,P@250更是达到了86%,相对于工作在英文日志上的同行的工作提高了4.9%。   针对这样一个受到很多因素影响的系统,本文设计并实现了大量的对比实验,进行了参数选择和各种算法的比较,得到了合适的Tags数目、Seeds数目等参数,验证了本文算法的有效性。   对部分日志进行了session划分,在session单位上实现了识别算法,以提高识别结果的覆盖率。同时手工标注了数万条查询来对覆盖率进行评价。实验表明,在session单位上做命名实体识别对提高识别的覆盖率有一定的帮助。   实现了一个灵活、高效率、有进化能力的系统。该系统通过配置文件来设置各种参数和数据文件,使调整各种参数,增加和更换seeds文件、日志文件的操作非常方便。系统可以在数十分钟的时间内处理上亿条查询的日志,达到了实用的要求。更重要的是,系统可以不断记忆选取出的Tags、复杂命名实体和噪音词,随着系统处理的日志量的增加,其识别效果会不断地得到改进。
其他文献
随着信息的迅速膨胀,传统的直连式存储(Direct Attached Storage,DAS)模型已经无法跟上人们对存储的需求,其在动态性、易用性和管理性等方面存在明显的缺陷。国家高性能计算机工
快速傅里叶变换作为时域和频域转换的基本运算在数字信号处理中应用广泛,而该算法由于采用分级实现,并不适于采用定点数来进行计算,尤其在处理高样本数时。所以本文针对FFT算法
车辆监测是智能交通系统的重要组成部分,系统实时监测路口交通状态、动态检测交通事件、提取交通参数。目前车辆监测在各种环境下背景建模方法通用性差、难以适应天气变化和
随着信息技术的飞速发展,软件产品逐渐应用到社会生活中的各个领域。在软件应用不断扩展的同时,软件质量逐渐成为人们关注的焦点。市场的快速变化对软件开发提出了更高的要求,只
近年来,随着网络技术和大规模存储设备的发展,诞生了一门新的数据密集型的应用领域:数据流。在数据流中,数据呈现大量、连续到来的特点,因此从数据流中挖掘潜在的知识变得更加困难
学位
扫描设计是一种广泛应用于数字集成电路中的可测试性设计。扫描触发器及其相关电路所占面积可达到芯片总面积的30%以上[GV01][YCDR08]。根据制造过程中的缺陷聚簇特性[KK98],当
下一代网络将是一种可以提供话音、数据和多媒体等各种融合业务的综合性的开放网络,其架构是基础网络、业务网络的两层架构。基础网络IP化、业务网络IT化趋势十分明显。业务网
随着集成电路工艺尺寸不断缩小、电路设计规模不断变大,高性能多核通用处理器正面临着高可靠性、高质量、低成本、低功耗等日益严峻的挑战,为了降低处理器芯片的测试难度,减少测
近几十年来,互联网以及多媒体网络的飞速发展,为人们传输如图片等各种多媒体资料提供了便捷的服务,加上人类至少有80%以上的外界信息经视觉获得。因此,数字图像等各种多媒体资
方向关系经常作为空间数据库查询的选取条件。基于观察者方位的方向关系在多媒体数据库、人工智能、虚拟现实、城市导游等领域都起着非常重要的作用,但是基于观察者方位的方