基于布尔关联规则的数据挖掘技术在数字档案馆应用研究

来源 :档案管理 | 被引量 : 0次 | 上传用户:shmilygang8751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1 引言
  在信息社会的大背景下,档案馆社会化也将随之而发展,数字档案馆访问者将具有来源广泛性、背景多样性的特征,信息需求的个性化发展也会随之而增强,数据挖掘将会成为档案工作者全面掌握和准确理解档案用户的信息需求和心理行为最为便捷的方式。关联规则作为数据挖掘的主要技术之一,也是在无指导学习系统中挖掘本地模式的最普遍形式。可使我们获得一些存在于数据库中的关联模式,为数字档案馆的建设提供科学依据。来档案馆查资料的人有不同目的,当第一次通过数字档案馆阅览时,可使用关联规则由其注册信息将他划分为相关联的用户群。使用登录账号登录数据库阅览时,数字档案馆数据库已根据其个人关联进行相对应检索,显现在用户面前网页就有可能是其最需要的资料,从而减少访问者检索所需时间。即是根据各位访问者经常使用的信息进行一定的关联分析,就可整理出数据库中不同种类用户群。
  2 数据挖掘技术流程
  2.1 确定对象。明确给出服务对象的业务需求,认清进行数据挖掘达到的目的是数据挖掘的重要一步,进行挖掘技术的最后结果是不可预知的,但要探索的问题却是可以预见的,为了数据挖掘而进行数据挖掘则带有一定的盲目性,成功率必然偏低。
  2.2 前期准备。一是数据的选择:搜索数据库中与业务对象有关的各种数据信息,并从中挑选出适用于开展数据挖掘应用的数据。二是数据的预处理:通过研究数据的质量,为下一步的数据分析做准备,并选定将要进行的数据挖掘操作类型。三是数据转换:将搜集的数据转换成一个分析模型,是针对采用的挖掘算法而建立的。而建立一个真正与挖掘算法匹配的分析模型则是进行数据挖掘成功的重要环节。
  2.3 开始挖掘。对前期经过筛选所得并经过转换的数据进行挖掘。在选择合适的挖掘算法后,剩下的所有工作都能自动地完成。
  2.4 挖掘分析。对挖掘结果进行解释并作出评估,在此过程中使用的分析方法应根据数据挖掘操作而定,一般采用可视化技术。
  2.5 进行知识同化。将挖掘结果分析所得到知识进行集成,并以此建立完善业务信息系统的组织结构。
  3 基于关联规则的数据挖掘方法
  关联分析(Association analysis)就是通过对数据库中的各数据项之间存在的相关特性按照一定规则进行比对分析,寻找出隐藏在数据项之间的相互联系,如果数据库中有两项或以上数据存在着某种联系,就能根据这种联系通过其相关联数据对某一数据
  进行预测。关联分析就能通过访问用户查阅各种档案信息间存在的关联性,进而分析发现用户使用模式。关联规则分析就是通过寻找数据库中数据之间相关性。如果两项或以上属性之间存在有此关联性的话,通过这种方式就可依据其他属性值预测其中某项的属性值。即通过数据挖掘技术就可找出数据库中藏匿的关联网,进而对下一步的决策提供指导。
  一方面,对原有的档案数据库中的显性知识和隐性知识进行搜集和整理,根据其概念描述归纳出便于提取的相关特征,通过基于布尔关联规则的分析,按照相似性与差异性构建不同的需求分析模型,然后利用Apriori算法进行迭代分析,将数据放入不同的分类中,便于提取。另一方面,要对用户确定的主题进行定义,明确挖掘要求和目的。通过需求分析模型与用户指定信息进行结合,进行差异分析和偏差检测,排除其他不相关数据,得到挖掘结果。最后要对挖掘结果开展评价,得到的挖掘结果可能有没有关联的数据,也可能没有达到需求,如果出现这种情况,整个数据挖掘过程就要返回到数据收集阶段,并重新开始挖掘过程,这可以用“if not…then”规则来描述,反之即满足数据挖掘要求,可为数字档案馆所用,并就将其充实到原有数据库中,进行档案馆知识创新。
  4 存在问题及对策
  基于布尔关联规则的数据挖掘技术使数字档案馆从理论走向实践成为可能,它主要提供技术支撑,而数据挖掘的基础是对各种数据的识别,也就是针对不同的数据库都要能够识别,就需要数据标准统一起来。当前我国档案信息化工作在标准体系建设方面相对延后,各种档案管理软件与档案信息管理平台尤其是档案信息元数据、档案数据库结构存在着无法兼容的情况,并且数据质量标准多样,无法满足数据挖掘所需要的高质量数据库要求。需要对档案信息整理统一标准体系,按照标准清理优化数据,完善数据库结构。需要借鉴数据挖掘在其他行业取得的成功做法,在数字档案馆建设中扩大数据挖掘在各个环节的应用,进一步推动数字档案馆建设和发展。数据挖掘技术的精度仍需提高,即如何使得迭代算法能够在进行关联规则分析时稳定收敛是仍需要进一步深入探讨的问题,建议采用数理分析方法,提出一种基于参数的优化模型,以此进一步优化提高算法性能。
  *本文为2013年河南省档案局科技项目,编号:13-X-18
  (作者单位:河南牧业经济学院人文与社会科学系 来稿日期:2014-06-16)
其他文献
统一思想是做好各项工作的前提,思想统一才能意志统一、步调一致。回顾民族工作的实际,一条很重要的经验就是始终坚持马克思主义民族观,坚持马列主义、毛泽东思想对民族工作
摘 要:在工程建设过程中,电子文件已逐步取代了传统的纸质文档,发挥了重大作用。但使用环境恶劣、异地多地施工等因素,都对电子文件提出了严重挑战。本文基于具体项目,对纸质工程文件与电子工程文件进行了比较分析,针对影响因素,设计了一款支持电子纸显示的工程电子文件阅读设备,并研究了该工程电子文件阅读设备的功能与性能,旨在有效解决工程电子文件的使用问题。  关键词:工程;电子文件;阅读;环境;电子纸  在工
《中国外文出版发行事业局机关机构编制方案》经中央机构编制委员会办公室审核后,已经党中央批准。1995年12月1日,中共中央办公厅就此向省、部和军队各大单位下发了通知。
介绍了采用地质雷达对海棠隧道溶洞进行探测的技术方法和结果,力求为隧道掘进超前预报提供重要参考。
<正>~~
美国西南部有许多氧化银钼矿床,由于难处理而未开发。某些情况下,银被包裹在软锰矿类矿物中,不适合用氰化法提取;而在一些钼或铜的似矿床中是包裹在针铁矿或类似的矿物内,不
过去破碎岩石使用炸药是很自然的事,但今天却要仔细斟酌。公众对控制冲击波、噪音和粉尘的压力,以及在炸药贮存、运输和使用中所承担的自然和法律的风险都是经营难题。这正迫
著名企业理论专家张维迎认为,中国企业过去之所以能够赚钱,是因为中国企业具有以下五大优势:一是廉价资源优势。过去,中国的企业使用了大量稀缺资源,如土地、资金、人才,但并
期刊
以往档案界对《档案法》约束档案行政管理权力的认识不足,多数把《档案法》当“武器”来认识和使用。应该认识到《档案法》在许多方面都对档案行政管理权力进行了约束控制。