论文部分内容阅读
面对现今越来越多的数据源和越来越大的数据量,数据挖掘能够有效地从这些海量数据中获取有价值的信息可以使人们更好地预测未来可能出现的数据信息,从而提高工作效率。然而国内尚未有基于工作流的实用数据挖掘算法库、企业数据管理仓库工具库、企业知识库管理工具库的文献报道,关于这方面的研究和工作自然成为了当前的一个新兴热点。 传统的应用程序面向的事务处理是以需求分析为基础的开发软件,而需求是相对确定的、固定的;数据挖掘的应用程序面向的决策支持在各个阶段有不同的任务模块,其需求是易变的、流动的。对于反复调试的模型,后者显得更加适用。实际上,数据挖掘的应用程序是适合工作流这种新型开发模式的,现今,S-plus和Sas中已经有基于工作流的集成环境应用于数据挖掘,但成本及维护费用过高,所以用户只限于大中型企业;相对来说,以SQL Sever的DTS作为工作流引擎的数据挖掘却拥有成本低廉的特点,能够满足小型企业的需要,填补了实际情况中基于工作流的数据挖掘应用的一些市场空白。 本文将工作流的形式应用于数据挖掘的算法流程当中,将常用数据挖掘算法、数据仓库与知识库管理和维护算法的通用结构的模块化,建成基于工作流引擎的算法库和工具库。在实际应用中,对于时常有新数据更新的数据挖掘任务(如企业数据管理、证券股市等)更加适用,达到了提高效率、减少耗费、优化流程以及增强可管理性等效果。 本论文致力于集成方案的研究,实现了将SQL Sever中的DTS作为工作流引擎进行数据挖掘,实现了将工作流技术与数据挖掘技术相结合。在介绍理论基础的同时对实际情况进行了举例论证,针对一些真实的数据进行实验,最终确定了研究的实用性和可行性。并且,使用了模式行集提取规则的方法,更加有利于模型成果的发布。得以验证以后,再将此类研究工作的成果大量运用于社会经济运作中,取得良好的实际效益,达到研究工作的最终目的。