论文部分内容阅读
随着数据库数据存储和应用技术的发展,企业运行过程中产生的数据也在以几何级数增长,这就需要在海量数据中获得满足特定需要的数据,从而为企业管理者提供决策支持。数据挖掘和知识发现(KDD)就是在这一背景下产生。KDD一词最早是1989年8月于美国底特律市召开的第一届国际KDD学术会议上正式形成。Fayyad定义为KDD“是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。一个完整的知识发现体系结构由数据源、数据存储、数据挖掘引擎和前端工具构成。
其中数据存储层的主要内容就是数据仓库,数据仓库的建立就是异构数据集成的过程,也是知识发现的基础和核心。数据仓库之父Inmon在1991年出版的“Building the Data Warehouse”-书提出的定义被广泛接受:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从定义看出,数据仓库具有实现人机交互的语义特性,可以通过语义建模使得知识发现的数据源能够被计算机推理和判断,实现复杂数据源的知识发现。
本体最早是来源于哲学的概念,在计算科学人工智能领域,美国斯坦佛大学知识系统实验室的Grubber最早提出本体被广泛接受的定义:“本体的是概念模型的明确的规范说明。”,从定义可以看出,本体描述的、是现实世界存在的概念模型,其本质是用于实现人机之间以及机器与机器之间的交互。作为语义建模的基础,将本体工程引入到知识发现之中可以有助于解决异构数据集成的问题,使用RDF(S)描述的XML构建底层数据源有助于知识发现。
基于本体的知识发现实证研究,将本体与知识发现相结合,主要基于本体构建数据仓库,再在这一数据仓库上进行知识发现这一逻辑。完成了以下一系列的工作:对现实世界二手房领域的术语进行了面向对象的分析:使用OWL语言创建了二手房领域本体:通过填充二手房领域本体实例的方式,将采集来的异构数据统一纳入了本体的框架之中,形成了XML格式的数据源;对异构数据源进行了数据集成和知识焙合操作;分析并设计了二手房领域的数据仓库;进行ETL,将本体的实例导入到数据仓库之中;结合数据挖掘的相关算法和本体的语义特性对多维数据进行简单数据挖掘实验。通过实验来探究本体对知识发现整个体系和整个过程的作用,提出了本体一方面可以作为构建数据源和进行ETL的元数据;另一方面可以利用语义的特性与数据挖掘算法结合对知识发现进行一定的支持。