基于本体的知识发现实证研究——以二手房领域本体为例

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:ajdpwsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库数据存储和应用技术的发展,企业运行过程中产生的数据也在以几何级数增长,这就需要在海量数据中获得满足特定需要的数据,从而为企业管理者提供决策支持。数据挖掘和知识发现(KDD)就是在这一背景下产生。KDD一词最早是1989年8月于美国底特律市召开的第一届国际KDD学术会议上正式形成。Fayyad定义为KDD“是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。一个完整的知识发现体系结构由数据源、数据存储、数据挖掘引擎和前端工具构成。   其中数据存储层的主要内容就是数据仓库,数据仓库的建立就是异构数据集成的过程,也是知识发现的基础和核心。数据仓库之父Inmon在1991年出版的“Building the Data Warehouse”-书提出的定义被广泛接受:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从定义看出,数据仓库具有实现人机交互的语义特性,可以通过语义建模使得知识发现的数据源能够被计算机推理和判断,实现复杂数据源的知识发现。   本体最早是来源于哲学的概念,在计算科学人工智能领域,美国斯坦佛大学知识系统实验室的Grubber最早提出本体被广泛接受的定义:“本体的是概念模型的明确的规范说明。”,从定义可以看出,本体描述的、是现实世界存在的概念模型,其本质是用于实现人机之间以及机器与机器之间的交互。作为语义建模的基础,将本体工程引入到知识发现之中可以有助于解决异构数据集成的问题,使用RDF(S)描述的XML构建底层数据源有助于知识发现。   基于本体的知识发现实证研究,将本体与知识发现相结合,主要基于本体构建数据仓库,再在这一数据仓库上进行知识发现这一逻辑。完成了以下一系列的工作:对现实世界二手房领域的术语进行了面向对象的分析:使用OWL语言创建了二手房领域本体:通过填充二手房领域本体实例的方式,将采集来的异构数据统一纳入了本体的框架之中,形成了XML格式的数据源;对异构数据源进行了数据集成和知识焙合操作;分析并设计了二手房领域的数据仓库;进行ETL,将本体的实例导入到数据仓库之中;结合数据挖掘的相关算法和本体的语义特性对多维数据进行简单数据挖掘实验。通过实验来探究本体对知识发现整个体系和整个过程的作用,提出了本体一方面可以作为构建数据源和进行ETL的元数据;另一方面可以利用语义的特性与数据挖掘算法结合对知识发现进行一定的支持。
其他文献
[目的 /意义]科学化、规范化、定期化的图书馆战略规划对我国图书馆而言仍处于初始发展阶段,调查研究并吸收和借鉴国外图书馆战略规划的相关成果,将加快我国图书馆战略规划的
期刊
期刊
随着信息技术的不断普及,信息系统中的数据质量问题受到越来越多的关注,数据作为信息的载体,是影响决策重要性的基础元素,低劣的数据质量严重影响数据的传递、加工和反馈等过程,使
学位
随着信息资源数字化程度的不断深化,为了适应数字化资源索引的需求,主题图(TM)技术应运而生,并在以Topic Maps.Org等机构的引领下,持续发展并不断壮大。ISO/IEC13250对主题图的定义
[目的 /意义]基于信息生态理论相关研究,对图书馆信息生态圈协同进化予以探索,一方面为信息生态学的发展提供理论支持,另一方面为图书馆信息服务工作的未来提供崭新的视角和