【摘 要】
:
本文根据突发事件报道的特点,尝试了一种进行特定信息提取的方法.该方法利用欲提取信息的关键词语,在经过分词标注的文本上,以分词单位作为基本元素,自动获取信息模式,从而进
【出 处】
:
中国中文信息学会二十五周年学术会议
论文部分内容阅读
本文根据突发事件报道的特点,尝试了一种进行特定信息提取的方法.该方法利用欲提取信息的关键词语,在经过分词标注的文本上,以分词单位作为基本元素,自动获取信息模式,从而进一步获取特定信息的相关内容,以便观察特定信息的发展、变化.该方法是一种无指导的模式获取方法,具有较好的鲁棒性.经过在不同突发事件文本集合上进行实验,表明该方法对信息结构比较简单的特定信息的提取具有较好的结果,对于信息结构较复杂的信息提取有待于进一步的研究.
其他文献
本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤
Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog空间里的信息量成倍增长.利用话题检测技术将Blog文本信息按照所表达的话题进行归类
特征选择是解决文本分类中特征空间高维性的难题的有效方法.在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率
构建代际和谐的养老保险新机制,是在与社会生产力发展水平相适应的前提下,兼顾当期和长远,建立全面协调可持续发展的养老保险新机制。
To build a new inter-generational p
多文档文摘的句子排序问题受到的关注一直较少,然而文摘句的顺序对用户正确理解原文意思却起到重要的作用,因此有必要对多文档文摘的句子排序进行研究.本文针对中文新闻摘要
随着一种新的信息管理和发布工具逐渐被大家认识和使用,互联网的"个人门户"时代已经迎面走来,这种新的信息组织和传播方式,就是B1og.本文针对Blog领域,设计并实现了一个面向B
基于语言模型的信息检索技术是一种具有理论优势的信息检索框架,这种技术所面临的一大问题是如何为严重数据稀疏的小文档建立语言模型.许多经验性的平滑技术看似严重地偏离观
Web已成为人们获取信息的重要来源.Web数据的产生与传播变得更加自由和便捷,数据量持续爆炸式增长,因而对Web进行监控和预警的需求也更加迫切.本文提出一种快速提取文档中心
亞洲及太平洋區域和平會議,不久就要在我國首都舉行,這是偉大的世界和平運動中的一件大事,這是亞洲及太平洋區域的億萬人民為了爭取和平、自由、獨立、幸福的生活而更加團結
Dotplotting是文本分割领域的著名算法,本文在对Dotplotting算法改进的基础上,提出了MMS模型.原始的Dotplotting算法仅考虑了语义段落间相似度来进行分割,而MMS模型综合考虑