【摘 要】
:
实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编
【基金项目】
:
国家自然科学基金(No.61602323),辽宁省博士启动基金(No.201601209),住建部科学技术项目(No. 2017-K8-038)
论文部分内容阅读
实体解析是指识别一个或多个数据集中的相似或相同的记录。该文主要针对模式未知的半结构化数据,提出了一种基于字符串相似度的实体解析算法,将记录分成多个子字符串,采用编辑相似度计算子字符串之间关联度,在此基础上引入二分图最大加权匹配算法度量记录之间的关联度。由于该方法的计算时间复杂度比较高,对于Web大数据集实体解析来说,所需的时间成本较大,因此,该文还提出了一种基于集合相似度的实体解析算法,将记录看作所有属性值的集合,每个属性值作为集合中的元素,用一个标记数组来表示每个元素,根据这些标记数组为每个记录创建一个
其他文献
本文研究了各种船舶动力系统仿真模型问题,讨论了船舶动力装置系统仿真设计的复杂性。船舶动力系统仿真模型包括涡轮增压柴油机仿真系统模型、燃气轮机仿真系统模型、联合动
为体现现代课程的综合性、活动性和创造性特征,我国适时推出了一门新课程——《历史与社会》。该课程是在替代原有的历史与地理(人文地理),并将其中的内容加以综合的基础上而形成
党的十六大提出:全面推进素质教育,造就数以亿计的高素质劳动者、数以千万计的专门人才和一大批拔尖创新人才。基础教育的根本任务就是为学生长大成才奠定品德、学识、能力、习
在三氯化铁法测定还原钛铁矿中金属铁时,将采用的两种溶样方式三氯化铁电磁搅拌溶样与浸泡法溶样进行了对比。指出了浸泡法溶样产生较大的负偏差,而采用电磁搅拌溶样能有效地
【正】 税法的主要内容,是规定纳税人应如何正确、切实地履行纳税义务。违反税法的行为,其具体表现形式虽然是多种多样的,但最终结果都表现为纳税人未依法履行他的纳税义务。
文章概括和总结了德国职业教育在各方面的特点,从立法、执法、知识与能力、实践教学、考试和考核等方面,简析了德国职业教育对我国和我区职业教育的启示。
【正】 最近在山东农村的调查,使我们深感我国农村商品经济还蕴藏着深厚的发展潜力;同时,在奔腾向前的潮流中还潜存着重重障碍。及时清除这些障碍,必将使商品经济得到更迅猛
【正】 有人认为,租赁经营是资本主义的经营方式,其实这是一种误解或曲解。我们现在所说的租赁经营,是在传统租赁的基础上发展起来的一种经营方式。这种经营方式不改变生产资
目的探讨镍钛记忆合金髌骨爪治疗髌骨骨折的临床价值。方法选择2组髌骨骨折患者100例,随机分成对照组和观察组,各50例,对照组患者采用传统治疗方法治疗,对观察组患者采用镍钛
企业进行人力资源管理时,往往付出了大量的资源与成本后仍然呈现员工高流失率,尤其对于中小企业影响更大,员工信用管理困难依旧是企业难以解决的问题。征信模型的缺失与不确