【摘 要】
:
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。 如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题。本文通过分析
【机 构】
:
东北大学信息学院 沈阳 110004
论文部分内容阅读
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。
如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题。本文通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-treebased Entity Extraction Mechanism for Deep Web,D-EEM),能够有效解决Deep Web环境中的实体抽取问题。该机制采用基于DOM 树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成。通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势。
其他文献
设计了音频专用DSP核中的IMDCT(修正的离散余弦反变换)硬件加速器,对[1]中给出的结构进行改进,使硬件实现减少了一个乘法器,计算效率提高一倍。经过FPGA试验验证,结果表明该
1药物流产的发展70年代初,美国首先合成前列腺素。1972年Karim应用15一甲基PG。。甲酯阴道给药抗早孕获得成功,为药物流产奠定了基础。1982年法国RousselU.claf公司合成米非司酮
在当前小学数学教育缺乏独立思考能力的情况下,我们教师必须找到有效的方法,培养小学生独立思考的能力,使得他们独立思考的能力能够得到有效提升,促进学生的全面发展.
是不是夫妻或情侣相处越久就越有“夫妻相”?美国密歇根大学进行了一项试验,将1568对夫妻分成两组进行研究,结果发现,无论是结婚不满20年或超过50年的夫妻,这些研究对象的面
初中体育课程中,篮球运动对于初中生的身体素质发展有着积极的作用.为了提高学生学习篮球的兴趣,首先要让学生在课堂上明白篮球运动的积极作用,然后带领学生学习技战术以及规
1999年劳动部颁布的《中华人民共和国职业分类大典》把档案管理职业纳入其中,我国档案管理正式成为现代社会职业体系中的一员.2015年修订的《中华人民共和国职业分类大典》将
我爸爸跟妈妈相识是在长征的时候,当时决定女同志都不要参加长征,因为路太远了。部队里只有7个女同志,就给她们一些钱,安置起来了。我母亲是童养媳出身,反抗意识很强,她不干,
小学低年级口算能力的培养在日后的学习中具有重要意义,教师要重视口算能力的培养,积极探索更加科学、新颖的教学策略,设计多样性教学活动,摸索出适合低年级学生口算能力发展
在医学图像领域,DSA图像中血管信息的提取一直是该领域所要解决的问题之一。目前多数DSA图像的血管分割方法都是依赖单幅DSA图像,没有考虑到DSA序列图像的特征,不能将血管各
本文介绍了一种适用于大规模虚拟场景的碰撞检测方法。针对大规模虚拟场景中物体数量多、种类复杂的特点,在传统的层次包围盒方法对动态场景实时碰撞检测有不足的基础上,该方