基于PMML标准的数据挖掘本体构建

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:qq38559322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对实际问题选择数据挖掘方法是一个困难的工作,使用本体对数据挖掘方法进行建模并为用户推荐适合的方法是一个可行的解决方案。PMML是一种应用广泛的数据挖掘国际标准,提出了一种基于PMML标准构建数据挖掘本体的方法并用Protégé构建了一个本体,为利用本体推理为用户推荐挖掘算法奠定了基础。
  关键词:本体;数据挖掘;PMML;
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)36-2563-03
  
  Constructing Data Mining Ontology Based on PMML Standard
  LIANG Zhu, ZHANG Hui, ZHANG Shi-ling
  (Southwest University of Science and Technoloty,Mianyang 621010,China)
  Abstract: It is difficult to select a suitable data mining algorithm for a real problem. Using ontology for modeling data mining algorithms and suggestingappropriate algorithm to a user is a feasible solution. We Propose a method to construct data mining ontology based.
  Key words: ontology; data mining; PMML
  数据挖掘是从海量数据中获取知识的过程。然而,随着研究的不断发展,针对各种不同的问题催生出了各种不同的数据挖掘算法,如神经网络、支持向量机、粗糙集等。但这些算法有各自的假设,并需要设置各种参数,用户在没有数据挖掘专家帮助的情况下很难使用这些算法对他们的数据进行挖掘。将数据挖掘模型本体化,利用本体的推理机制为用户推荐算法,对简化用户的挖掘过程具有重要意义。本文提出了一种基于PMML标准构建数据挖掘模型本体的方法,为利用本体推理为用户推荐挖掘算法奠定了基础。
  1 本体
  本体(ontology)原本是一个哲学上的概念,是研究客观世界本质的学问。在计算机科学中,本体的定义尚未统一,Studer在1998年对本体的定义得到最多的认同:“本体是对某一领域概念模型的明确的、形式化的规范说明”[1] 人工智能领域的研究被分为两类,一类是面向形态的,另一类是面向内容的。前者研究逻辑和知识的表示,后者研究知识的存储。本体是面向内容的,它清楚地描述了概念及概念之间的关系,通过概念之间的关系来描述概念的语义。不同研究者都把它当作是领域内不同主体(人、机器、软件系统等)之间进行交流(对话、互操作、共享等)的一种语义基础,即由本体提供一种共识。
  出于对各自学科领域和具体工程的不同考虑,构建本体的过程各不相同。目前还没有一套标准的本体构建方法。一般认为,Gruber在1995年提出的5条规则[2]是比较有影响的:1)清晰性、明确性和客观性:本体应该用自然语言对术语给出明确客观的语义定义;2)完整性:所给出的定义是完整的,能表达特定术语的含义;3)一致性:知识推理产生的结论与术语本身的含义不会产生矛盾;4)最大单调可扩展性:向本体中添加通用或专用的术语时,通常不需要修改已有的内容;5)最少约束:对待建模对象应该尽可能少列出限定约束条件。
  Ontology可以按照分类来组织,包含5个基本的建模元语:类、关系、函数、公理、实例;4种基本关系:part-of、kind-of、instance-of和attribute-of。本体构建者也可以根据具体情况定义关系。[3]
  2 PMML
  数据挖掘技术的研究与应用经历了十多年的努力和发展已取得了很大的成果,但仍然还存在许多问题:
  1)各种数据挖掘问题及挖掘方法基于不同的模型和技术,彼此互相独立,联系很少;
  2)缺少简明精确的问题描述方法,挖掘的语义通常是由实现方法决定的;
  3)数据挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用;
  4)数据挖掘系统仅提供孤立的知识发现功能,它没有提供应用独立的操作元语。
  到目前为止,数据挖掘行业是高度分散的,公司和研究机构独立开发各自的数据挖掘系统和平台,没有形成开放性的标准;同时数据挖掘本身是一门多学科综合跨度非常大的技術,这两点是上述问题存在的根本原因。数据挖掘行业非常需要一个数据挖掘和统计模型的标准描述,除此之外,也希望该标准是一个相对严谨的标准,为今后提出的标准之间的互操作提供一个通用的平台。
  由Angoss,IBM,NCR,Magnify,Oracle,Illinois大学的NCDM(The NationalCenter For Data Mining),SPSS,Xchange以及MINEit等组成的DMG,于1999年7月制订出基于XML的预测模型标记语言PMML,其思想就是依托XML本身特有的合理数据分层思想和自描述性,实现数据挖掘模型的描述、管理标准化和可移植性[4],是一个已经被W3C所接受的标准。其目的在于将模型以独立于形式的方式封装,使不同的应用程序都可以使用它[5]。PMML可以帮助用户简便、快捷地定义模型并且在不同厂商的相容应用之间共享这些模型,为应用提供了一个独立于厂商的方法来定义预测模型(实际范围已经扩展到其它数据挖掘模型),使用PMML标准在不相容的应用系统之间可以实现无缝的模型交换。现在已经得到应用的是PMML3.2。
  3 数据挖掘模型本体的构建
  3.1 数据挖掘模型
  我们的研究是要构建数据挖掘模型的本体,在这里将以树的形式简单介绍基于PMML标准的数据挖掘模型的主要模块,如图1所示。模型主要包括头信息、数据字典、 挖掘任务、 转换字典和PMML模型以及扩展几个部分[6]。
  1)头信息(Header):包含了版权、版本等相关信息
  2)数据字典(DataDictionary):涉及整个PMML文件中的原始数据定义
  3)挖掘任务(MiningBuildTask):包含了任意XML形式的对于挖掘结构的描述
  4)转换字典(TransformationDictionary):定义了多种形式的转换机制
  5)PMML模型(PMML Model):包含了关联规则,聚类,回归等各类模型的定义
  6)扩展(Extension):包含了其他各部分没有定义的需要扩充的描述,也是每个元素的定义中都包含的内容,方便用户对模型的说明和扩展
  其中最重要的部分是数据字典和PMML模型本身。PMML对模型中的每一个元素可以有进一层的定义,定义中包含该元素涉及的其他元素和特征。对特征的定义包含特征的名称、数值类型。
  3.2 本体构建
  3.2.1 本体构建工具Protégé
  Protégé是一个免费的开放源码本体编辑器和知识库框架。Protégé平台支持两种本体建模方式,即采用Protégé框架编辑器和Protégé OWL编辑器。Protégé本体可导出为各种格式,包括Clips、UML、DAML OIL、RDF(S)、OWL 和 XML Schema。它基于Java,具备可扩展性,提供的是一种即插即用环境,使其成为一个进行快速构建原型)和开发应用程序的灵活基础。
  Protégé所采用的方法论使得系统构建者能够从模块部件基础上搭建软件系统,包括组建领域模型的可重用的框架、独立于领域的问题解决方法论,这方便了解决问题时的策略制定。系统包括两个主要的部件:本体编辑器,通过扩展层次结构来建立领域本体,包括抽象和实际的类与属性;基于本体建立的知识获取工具,以得到本体的实例。
  Protégé拥有一个由开发者、学术用户、政府用户和公司用户共同构成的强大群体。他们在各种各样的领域中为寻求知识解决方案而使用着Protégé,如生物医学、情报搜集、公司建模等。
  3.2.2 本体构建方法
  用类表示的本体构建关键在于合理地对知识进行分类,并正确完善地定义类之间的关系。在该数据挖掘模型的顶层本体构建参照PMML标准,按照以下方法构建:
  
  图2 用Protégé构建的数据挖掘模型本体Header部分
  
  图3 Header的NECESSARY條件约束
  1)类的构建
  定义PMMLHeader, PMML-MiningBuildTask, PMML-DataDictionary, PMML-Models和PMML-TransformationDictionary几个基本类以及 BaseElement, BaseAttribute几个扩展类。PMML-Models下包含子类Association,Clustering,GeneralRegression等各种算法模型,该类也是挖掘模型的核心部分,各算法模型详细定义了出入口参数,挖掘数据类型,使用算法名称等,其组织形式和其他各基本类相似。BaseElement, BaseAttribute包含一些类都关联的共用子类,如Extension,ValuePartition,optype等。
  在各个类下定义对应的Element(元素)和Attribute(特征)两个基本子类,包含该部分的所有元素和特征。通过Element关联到其他相关类,Attribute则定义了该类的各种特征。如PMML-Header的HeaderElement子类包含子类Application,Annotation,Timestamp和Header(因为Header和其他类的关系不是父子类的继承关系,所以作为兄弟结点放在同一层,具体关系定义会在下一节中提到);PMML-Header的HeaderAttribute包含子类copyright和description等,表示Header的特征,如图2所示。
  ValuePartitions专门用来定义一些数据字典中没有定义的离散数据类型。如属性property的属性类型为PROPERTY,取值范围是:valid,invalid,missing。则在ValuePartitions下建立子类PropertyValuePartitions,在PropertyValuePartitions下建立子类valid,invalid,missing。然后建立property的对象属性hasProperty,再设置该属性的值域range为PropertyValuePartitions。[7]
  2)关系的定义
  不同于其他的领域本体,数据挖掘模型本体中的各类间的关系并不依赖于父类和子类间的继承,而是相互关联。所以,定义对象属性hasElement,hasAttribute和数值属性hasValue几个主要属性,利用protégé提供的NECESSARY和NECESSARY
其他文献
摘要:在J2EE架构中集成XML技术是一种可扩展性很强的组合。文章讨论了J2EE架构中XML技术在数据描述和交换、数据显示以及面向消息的分布式计算等方面的应用。  关键词:J2EE;XML;JSP;XSLT;EJB;message-oriented  中图分类号:TP391文献标识码:A 文章编号:1009-3044(2008)35-2147-03  The XML in J2EE  CAI Xi
摘要:通过对大学生就业情况的调查,发现大学生就业的一大基石是语文素质。语文知识储备丰富与否,在人的职业生涯中占据重要地位。因而,必须加强大学生的语文素质建设,打好新时期大学生就业的基石。  关键词:语文素质 就业基石  引言  语文教育作为我国现代教育的重要组成部分,必须适应现代化社会、经济建设发展的要求,注重人的素质培养与提升,为社会培育出更多的高素质人才队伍,实现高校教育的宗旨;要体现出高校教
摘要:该文介绍了在Delphi中通过网络传输下位机采集的数据,使用IXYPlot控件将数据实时以直观的工控波形界面进行显示的方法,并结合应用实例给出了数据显示的应用程序。  关键词:Delphi;实时数据;波形;显示  中图分类号:TP312文献标识码:A文章编号:1009-3044(2008)33-1386-02  The Method of Realizing Remote Data Wave
《义务教育语文课程标准(2011年版)》对语文课程性质的界定明确告诉我们:“语言文字运用”是语文课程的核心理念,是教学活动与教学设计的基本走向。通过调查大量的教学实践可知:目前,小学语文课堂教学在如何落实“语言文字运用”的理念与实际操作层面上,淡化甚至忽略语文课程性质的意识和做法比较普遍。教师习惯将理解语言作为教学的重要目标,不能有效区分“课文内容”和“教学内容”,注重文本内容的开发,忽视语言的运
书名:现代汉语语法研究教程(第五版)  作者:陆俭明  出版社:北京大学出版社  出版时间:2019年  ISBN:9787301304983  定价:59元  语法研究是语言学领域的重点研究内容。语法的变化与发展在某种意义上提示了语言的发展与变迁,语法是语句形成的基础,语句则是语言应用的基础。只有深刻把握语法的内涵与特征才能真正理解一门语言背后的文化现象、结构规律和使用规范,做到语言应用的形式与
【摘要】统编教材“快乐读书吧”的课程设置中,安排了成长小说的专题阅读。本文从成长小说的基本要素、阅读取向以及教师带读时应该关注的思维视角出发,提出了以下观点:苦难是成长的仪式和驱动力,反抗是成长的必然姿态与模样,自省是由蛹化蝶的必由之路。  【关键词】成长小说,阅读取向,思维视角  统编教材“快乐读书吧”的设置,无疑推进了儿童阅读的课程化实施。“快乐读书吧”对整本书阅读的课程设计,体现了一个学期重
摘要:网上(在线)拍卖模式已经成为电子商务重要的常见业务之一,P2P是因特网的一种新的应用模式,JXTA是SUN公司提出的一个P2P的网络底层支撑平台。因此利用JXTA平台,采用P2P技术设计了一个用于网上电子交易的网上拍卖系统(P2PNAS)。该论文对基于P2P/JXTA的网上拍卖系统进行了研究与探讨,利用P2P技术实现在线商品发布、查询、竞价与交易的电子商务业务。  关键词:JXTA;P2P;
摘要:我国多数油田经过一次、二次采油后,仅能采出地下总储量的30%左右,这意味着有60%~ 70%的剩余石油仍然残留在地下成为剩余油。加强剩余油分布规律研究、提高石油采收率不仅有着可观的经济效应,而且关系到国家石油战略的安全。  本研究应用神经网络的原理,基于BP网络使用MATLAB语言建立一个剩余油分布的预测系统。该系统通过学习在地理坐标和孔隙度之间建立一个非线性函数关系,以此来预测任何区域的孔
摘要:提出基于AT89S52单片机的下位机数据采集系统与Delphi环境下PC机的串行通讯的软硬件实现方法。简要介绍系统的工作流程和通讯控制原理,详细介绍单片机与PC 机通讯的硬件控制电路、通讯协议以及上下位机软件实现过程,重点介绍Delphi语言中SPComm控件的使用方法。采用软硬件相结合的方法进行仿真和调试,成功实现了功能要求。实际应用表明,这种通讯方案稳定可靠且控制简单,具有很强的工程实用
【关键词】文学史视域,统编教材,古诗词,选录特点,教学建议  选本,顾名思义,是选者将符合其意图与标准的作品编选而成的合集。在价值学领域,筛选本身就意味着价值的生成与呈现,统编小学语文教材作为一种特殊的“选本”,在古诗词的选编上具有较为明显的特点。分析、研究这些特点将有助于我们更好地理解编者的意图,进而指导教学实践。  关于统编教材所收录的古诗词数量,目前有两种说法。—是114首,当下市场上热卖的