【摘 要】
:
本文中提出了一种表示格式无关的表格描述模型及在此基础上实现的数据抽取算法.跟其它的表格模型及数据抽取算法相比,行列切分树模型存在着以下优势:1.建模的基本信息来自于
【机 构】
:
清华大学计算机系知识工程组(北京)
论文部分内容阅读
本文中提出了一种表示格式无关的表格描述模型及在此基础上实现的数据抽取算法.跟其它的表格模型及数据抽取算法相比,行列切分树模型存在着以下优势:1.建模的基本信息来自于表格自身的结构特点以及从结构特点上反映出来的逻辑联系,与表格的表示格式(HTML、PDF、EXCEL)无关,因此适用于各种格式的表格文档.2.通过逻辑联系的强弱而不仅仅是简单的行列位置来对单元格进行组织,逻辑关系越强的单元格聚合得越紧密,便于实现高效的剪枝.3.充分利用表格结构特点尽早过滤掉无关区域,减少对单元格内容进行无用匹配的次数.
其他文献
目前已经使用振动测量和神经网络方法开发出了齿轮传动的故障诊断技术。实施振动测量采用背对背结构的齿轮试验装置 ,在施加负荷和按齿轮节圆线速度条件下运转 ,这些都是工业
2009年11月,西子湖畔,“三潭印月”集合信托债启动发行,融资规模达到1.44亿元,—为了帮助中小企业融资,这已是杭州市西湖区政府债权型引导基金的第二期。此外,西湖区还实践了
本文主要探讨了在星型模式中如何利用维表的相似重复消除的结果来探测和消除事实表中的相似重复记录问题.在数据仓库中还存在雪花模式这类比星型模式更复杂的数据模型,未来的
朱散校长早饭前都会围着学校跑一圈,这是他在村小学任教以来雷打不动的晨练项目.当上校长后,又添了晚饭后的散步,路线依旧是围着学校.rn今儿起得早,跟往常一样,朱散沿着村村
本文针对OLAP前台工具实现过程中的两个难点进行探讨.在设计多维表时,参考了Analysis Services的多维数据集浏览器的显示方法,并对之加以改进.实现多维表时,采用了分治、递归
云深茶舍设在背街,人很少.早年间是文玩古董的集散地,倒很热闹,如今却没落了.茶舍设在此,倒不失为一个清静的所在.rn茶舍风格很古朴,门上悬着“拂尘看净”的匾额.格子门,黄花
铁子要去河边放牛,把牛拴在树桩上,边解裤腰带边往路边的那片高梁地跑.他刚要动手小解,“啊”地惊叫了声便提着裤子又窜出高梁地.原来翠花也在地里小解,铁子看到了她那白白的
对于八年级学生而言,课外阅读是课内学习的必要补充,能开阔学生的视野,提高学生的阅读能力,培养学生英语学科的核心素养.本文结合学生英语课外阅读的实际情况,研究如何有效的
将心理健康教育渗透在日常教学中,顺应了时代的发展,满足学生对心理健康教育的要求,并且符合初中生存在逆反心理的心理发展特点.语文教学内容丰富、嵌入性强,使其在渗透心理
就是一念之差.老实待在宾馆不就没这事了嘛,他不该半夜时分跑出来喝什么酒,并且无论如何也没想到,在这到处是监控摄像头的时代,居然会夜遇劫匪,而三个戴墨镜的醉鬼确实就把他