基于XML的网络信息库与网络数据挖掘研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:fazaizhaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  XML(可扩展标志语言)以自身的优势逐渐赢得得了互联网的青睐,它在网络数据挖掘中有着广泛的应用前景。XML具有可扩展性、灵活性、自述性以及面向数据等特点,它克服了HTML的许多缺点,其优越性十分明显。而另一方面,由于数据挖掘的深刻性和网络信息的复杂性,从互联网上发现知识是一项极具挑战性的工作。在当前,网络数据挖掘出现了一些问题和难点,主要是半结构化数据和异构数据等问题。网络信息最大的特点就是半结构化,XML作为半结构化数据模型,为这一问题提供了解决之道。本文在参考大量国内外文献的基础上,对网络数据挖掘的研究情况进行了总结,对基于XML的网络信息库与网络数据挖掘进行了研究。在XML与网络数据挖掘相关理论基础上,探讨了XML在网络数据挖掘中的主要应用,分析了网络信息库的基本思想,论述了基于XML的网络信息库的理论、构建方法及实现过程,并探讨了基于XML网络信息库在Web文本挖掘中的应用,给出了Web文本信息库构建的实例。本文为基于XML的网络数据挖掘提供了一个思路与方法,对网络数据挖掘的理论有一定的促进作用,对网络数据挖掘系统的实现有一定的参考价值。基于XML的网络信息库主要解决了网络数据挖掘中的半结构化问题。网络信息库在Web文本挖掘中表现为Web文本信息库,这一思想应用在Web文本挖掘中有利于文本特征项的提取,对Web文本挖掘有一定的指导意义。   
其他文献
本文在充分调研和对国内外文献信息资源共建共享的历史回顾及现状进行比较研究的基础上,运用综述、案例分析、比较等科学研究方法对文献信息资源共建共享及其模式进行了较为系
  本文围绕着国有档案公布中公民利用权的保护而展开,分为4个章节进行论述。第一章是全文的绪论,在回顾了国内外学者关于档案公布与公民利用的理论研究基础上,并立足当前档案
特许经营是一种独特的商业经营模式,其核心特征在于知识产权的转让。特许经营体系主要包括特许方、受许方和供应商等,这些成员之间的商业活动引发了特许经营供应链上的物流、资
目的肿瘤的转移是恶性肿瘤致死的主要原因之一,也是影响肿瘤治疗与预后的重要因素,E选择素(endothelial leukocyte adhesion molecule-1,ELAM-1)是导致肿瘤转移的关键步骤之
  本文旨在研究我国社区信息服务网站构建过程中存在的问题与对策,由绪论、社区信息服务理论研究文献综述、网络环境下的网络信息服务、社区信息服务网站的构建、社区信息服
语文教学是母语教学,其第一要务是引导学生学习语言,培养学生"听、说、读、写"的能力。这一任务决定了我们的每节课都要围绕这几点展开。但语文课课型较多,不可能有一个统一的模式
2010年《美国新闻与报道》公布的最新全美45所高等院校图书馆学、情报学专业的排名。本研究基于其中43所院校的2 337门课程,依据数据库技术和专家的分类知识将其划分为20个分
知识经济时代,知识资源是企业的核心竞争力,企业实施知识管理就是对企业知识资源的管理,分为显形知识和隐形知识。企业知识管理的目的就是实现显性知识的编码化,隐性知识显性化,再内化为企业的直接生产力。企业实施企业知识资源管理以信息和网络技术为基础。在过去的十几年里,大量的企业基于Internet 建起了企业信息管理系统。但是,随着网络技术的飞速发展,新一代的信息网格技术将会成为Internet 的发展方
从社会认知的角度,将自我效能理论应用于高校图书馆用户教育中,分析用户教育与自我效能之间的关系,影响图书馆用户自我效能的因素有以前利用图书馆的直接经验、替代性经验、
从绩效棱柱的视角,提出显性知识立体管理模型。模型中,基础服务面向知识组织棱展开,读者共建面向读者满意面展开,分别代表知识与人的认知水平的推进。加强图书馆显性知识管理