基于ontology的Blog信息抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xingke198621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog作为一种新兴的个人媒体,正逐步流行于互联网中。它承载了大量有价值的信息,已经成为当前互联网应用研究中的一个热点。针对Blog的研究诸如Blog社区发现,Blog主题提取等日益引起人们的关注,这些研究都需要结构化的Blog信息。于是对Blog网页的信息抽取成为不可或缺的研究内容。Blog网页的信息抽取相比于传统网页的信息抽取有着很大的区别。首先,Blog网站由于自身信息量大的特点,广泛使用了Web2.0的Ajax技术。普通的网络爬虫无法获取这种异步传输的数据内容。其次,Blog网站强调个性化的理念,它们允许Blog的作者随意修改自己Blog网页的布局。这就让原本已是半结构化难以处理的HTML网页信息更灵活,给传统的信息抽取算法提出了个难题。本文对Ajax技术进行深入的分析之后,提出了通过执行JavaScript与重建DOM树的方式获取异步网页信息的方案。该方案在本文的原型系统中实现,实验中对sohu.com, sina.com等几个国内大型应用Ajax技术的Blog网站进行数据抓取,实验准确率能达96%以上,效果较为理想。本文对Blog网页的结构和语义信息进行了深入的分析之后,定义了网页“块(Block)”的概念。根据Blog网页半模板化的特点,提出了使用结构与语义两个特征作为信息抽取的依据。本文提出使用ontology来表示Blog中信息与Block的关系,Block与Block的关系,语义与Block的关系以及语义与信息的关系,建立Blog信息抽取的知识库。本文针对Blog站点模板以及架站技术日新月异的变化,实现了一种扩展性较强的抽取规则生成算法,方便的应用于Blog网站模板发生变化的情况。在本文的原型系统实验中证明,本文提出的这种Blog ontology信息抽取算法有着较好的性能,在效率上也有一定优势。基于以上的研究成果,本文设计并实现了一个Blog信息抽取的实验原型系统,包括异步网络爬虫、生成抽取规则、信息算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
写这个题目,源于两个人的触动:一个是牛玉儒。在接受呼和浩特电视台的专访时,记者问他,作为呼市这个“大家庭”的家长,新的一年有什么新的打算?牛玉儒温和而坚决地纠正记者:
本文针对高等院校开展大学生职业指导工作的问题进行分析,从职业指导理念、职业指导理论、职业指导实施、职业指导实践活动等方面提出了对策,以期为有效的职业指导工作提供借
AIM To investigate the outcomes of liver and pancreatic resections for renal cell carcinoma(RCC) metastatic disease. METHODS This is a retrospective, single cen
构建社会主义和谐社会是一个复杂的社会系统工程,必须统筹兼顾,突出重点,坚持把群众的利益放在首位,着力解决好群众最关心、最直接、最现实的利益问题,力求在解决突出矛盾和
随着计算机与通讯技术的飞速发展、互联网的普及与应用,包括科技文献在内的各种文本信息呈爆炸式增长,这为人们合理有效地组织和管理海量的文本数据带来了极大的挑战。对科技
本文探索了基于翻转课堂的混合教学模式在大学英语写作方面的应用.教学实践表明:在“互联网+”背景下,借助系统功能语法微课系列为主的翻转课堂形式,利用动态的混合式教学培
合成孔径雷达是一种高分辨率成像雷达,作为一种新型的遥感技术,因具有全天候、全天时对地球表面进行观察的能力以及高空间分辨率的特点,使得SAR在军事和民用方面发挥着越来越
无线传感器网络由大量资源有限的节点随机的以自组织的方式组成,主要用来收集并感知被监测区域的信息。由于无线传感器网络多数都被部署在环境恶劣的区域,同时无线传感器网络
应用型的教育与培养是高职院校办学的核心目标之一.“互联网+”背景下,高职院校须顺应时代发展将原有的应用型人才教育与培养逐步与创业教育相整合,使之逐步转向应用复合型的
学生社团是开展职业学校德育工作的重要载体和第二课堂.作为职校生自发形成的群众性团体,每个社团主题所包含的价值选择和价值判断都是不同的,而提升社团建设质量的前提和关