溯源数据聚类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:lawrence121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据溯源(Data Provenance)是对目标数据衍演变过程的追溯、重现与展示。由于溯源系统通过监控系统调用,收集文件和进程之间的依赖关系,数据溯源在追踪数据的演变及验证数据的可信性等方面具有独特的优势,数据溯源被广泛应用于多种领域。为了保证数据的可溯源性,现有溯源系统的溯源数据涵盖了规模巨大的细粒度依赖和生成关联,因而溯源数据的规模往往远大于目标数据。规模巨大的溯源数据不仅严重降低了溯源查询的效率,使其存储、计算和管理成本激增,还因数据关联过于复杂、细密,使溯源结果的理解和从中获取关键溯源特征更加困难,因而极大降低了数据溯源的质量。针对这一问题,本文从溯源数据粗粒度化角度出发,通过对溯源数据进行聚类,将细粒度的溯源数据与溯源关联组合成粗粒度溯源数据,并保持数据的关键溯源特征,以此实现对目标数据的高效溯源。为此,本文的主要工作包括:(1)提出了基于节点中心性的溯源数据全局聚类方法。该方法首先定义节点中心性的计算方法,通过比较有直接依赖关系的节点的中心性,衡量相邻节点间相似度,实现有语义意义的溯源数据全局聚类;最后基于划分结果,实现溯源概括图的粗粒度溯源。(2)提出了基于节点疏离性的溯源数据局部聚类方法。该方法首先定义了节点疏离性的计算方法,从目标节点出发广度优先遍历溯源图,筛选出与目标节点关系紧密的节点,实现关键数据的局部聚类。(3)由于时间戳属性体现了溯源数据的溯源热度,本文提出基于时间序列的溯源数据可变粒度聚类方法。该方法首先给出一种时域划分方法,在基于中心性的溯源数据全局聚类结果的基础上,合并位于同一时域内的簇,实现基于时域的溯源数据可变粒度聚类。本文创新性主要体现在:(1)提出基于节点中心性的溯源数据全局聚类方法。与已有方法相比,该方法实现了具有语义意义的溯源数据全局聚类。(2)提出基于节点疏离性的溯源数据局部聚类方法。该方法可有效过滤掉与目标节点具有较大疏离性的溯源数据,保留具有强关联特征的溯源数据,有效地实现了溯源数据的粗粒度化。(3)提出基于时域的溯源数据可变粒度聚类方法。通过合理划分时域,在不同时域内对节点的聚类粒度调整,实现对不同热度的溯源数据可变粒度聚类。本文的实验数据是PASS模型的标准溯源数据集。实验验证了本文提出的溯源数据聚类方法的可行性与有效性。
其他文献
目的 探讨依托咪酯静脉泵注对腹腔镜胆囊切除术老年患者早期认知功能和血流动力学的影响。方法 拟全麻下行腹腔镜胆囊切除术的90例老年患者,随机分为对照组和试验组各45例。
目的探讨红细胞分布宽度(RDW)对慢性阻塞性肺疾病(COPD)接受呼吸机治疗患者首次脱机失败率的评估价值。方法选取80例COPD接受呼吸机治疗的患者,按照脱机前RDW水平分为RDW增高组(RD
内容与要求 1.让幼儿知道十二生肖包括哪些小动物及十二生肖的排列顺序。 2.发展幼儿的语言,丰富词汇“生肖”、“属相”。 3.激发幼儿的民族自豪感。 活动准备 1.课前让幼儿
分析电信业在破除垄断,引入竞争后电信管制中广泛存在的一般竞争管制与电信行业管制之间对电信经营活动管辖权存在的冲突与协调这一现象.介绍了加拿大的富有特色的做法及解决
部署NGN的动因1.收入减少带来的压力NTT基于时分复用的电话业务收入在过去3年中减少了近40亿美元,移动电话业务收入也在减少。日本宽带接入的激烈竞争,导致了价格战。光纤接入的
近日,厦门科华恒盛股份有限公司捷报频传,继中标人寿全国20多个省市集中采购的600多万大单后,又相继中标黑龙江建行、辽宁建行和福建建行,累计中标金额1000多万,中标产品均为FR—U
山坡上有只小老虎,每天,他总要冲着山下叫喊:“啊呜!我的本领最大,从来不要别人帮忙。”山坡下有间小房子,房里住着小花猫、小公鸡和小羊。每天,他们在一起唱歌、游戏,甭提多
内容与要求 1、要求能力强的幼儿能熟练地根据物体的大小、颜色、形状排序。 2、能力一般的幼儿在老师的启发诱导下,能根据物体的两种特征排序。 3、能力较差的幼儿在教师的