论文部分内容阅读
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由于互联网技术的不断发展,Web上出现了数以万记的网页,这些网页的内容大多是以自然语言的形式描述的,其中包含了大量的指代。随着Web挖掘研究的日益广泛,指代消解在信息抽取、内容挖掘等领域的应用越来越多,尤其是在实体属性抽取,实体关系发现与分析以及人物实体踪迹追踪等研究中,呈现出非常重要的作用。
本文工作主要是针对中文网页中的人物实体,利用统计的方法进行指代消解。与其他研究相比,本文有以下方面的特点:首先,处理中文文本,针对英文中的指代消解研究很多,但对于中文中的研究比较少,而中文相对英文在词法语法上都有非常大的不同,本文工作中的中文人名性别识别以及中文依存语法分析都是为中文指代消解所做的工作;其次,处理网页文本,前述研究多是以纯文本为研究对象,而网页相对于纯文本,还有网页代码,利用这些信息可以帮助进行指代消解,再次利用互联网上网页众多的特点,建立一个人物实体专有名词的知识库,对专有名词指代进行消解。
本文详细介绍了中文指代消解系统CARP的设计思路和实现技术,对系统进行了评测,对涉及到的问题进行了探讨。