Data Mining中数据加值方法研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:wang5632968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文的研究主题是针对Data Mining应用领域中数据加值方法的研究,藉以提升数据质量,创造探索新知识的机会。在过去几年来Data Mining技术的发展有日渐快速的趋势,其应用领域也日益广泛,然而在快速发展的同时,在应用实务上却遭遇到许多的挑战,特别是数据质量问题。事实上,不存在100%完美的数据,数据常存在着许多不完整、不准确或不一致等质量问题。对数据分析人员而言,改善数据质量就成为一项严峻的考验。显然地,没有高质量的数据,就不能保证有高质量的Data Mining结果。  Data Mining主要是对大量数据的次级分析,数据质量隐含的危险性更高,可能发现的有趣模式却是因为测量不准确或对数据错误理解而造成的结果,容易导致错误的结论。既然Data Mining是致力于探测数据中的未知模式,应该更重视数据质量问题,避免获得的探索结论是反应数据收集或录入过程有缺失的模式。  在Data Mining应用实务上,分析数据大部分来自于已经建置的数据库,与传统调查数据的差异在于并非为特定研究目的而有目标地收集,而是倾向于次级数据的分析,研究人员往往在数据收集上没有直接参与设计,或是对数据收集过程不具备控制权。因此使用的数据通常无法完全符合研究需求,数据中充斥着缺失值、离群值、不正确或不完整等数据质量问题。虽然面对大量的数据,却常常陷入无可用数据的困境,降低原有数据的价值。本文的研究目的就在于探讨如何有效利用现有资源为数据加值,减低因为数据质量问题对数据价值的损害。  通常在Data Mining时,如果遭遇到数据缺失或不完整情况,最常用的方式是删除有问题的记录或放弃加入可能有影响的变量,造成大量信息资源浪费,同时可能造成探索的结果产生错误。一旦重新采用调查方式来收集补齐缺失数据或缺漏的变量,将耗费大量的人力和成本,无效率且不切实际。本文提出以数据加值方法改进数据缺失和不完整的数据质量问题,数据加值的主要意义是以现有数据资源透过统计方法或Data Mining技术增加原有数据库的信息含量和数据量,藉以提升原有数据的可用性和价值性,加值的辅助信息来源可以是原有数据库或外部数据库。  数据加值的真正目的和重点是增加Data Mining结果的质量和价值。数据加值可以是原始数据的加值或模型的加值,本文主要研究范围在原始数据的加值问题,加值后的最终成果是一个完整数据矩阵的加值数据库。  根据加值的辅助数据库来源的不同,本文试图从两个层面来探讨数据加值问题,加值数据库的来源不同,影响加值效果的因素也不同。第一个层面是利用原有数据库内的数据为缺失数据加值,本文称为单一数据源数据加值,主要探讨缺失值处理方法,研究重点在于加值预测模型的建构。第二个层面是利用外部数据为不完整数据加值,整合外部可用的数据源为原有数据加值,本文称为多数据源数据加值,研究议题牵涉较为广泛,研究重点在于数据匹配和加值预测模型的建构。  在单一数据源数据加值方法的研究方面,首先探讨单一数据库内缺失值的处理,缺失值处理的探讨在国外已有四十多年的研究历史,在国内仍然处于起步阶段。主要的缺失值处理方式有完整数据分析法、加权法、建模法和插补法,其中插补法可以提供一个完整的数据矩阵结构,是最受欢迎的一种缺失值处理方法。插补法又可分为许多种类,包含随机插补法、均值插补法、热卡插补法、冷卡插补法、回归插补法和多重插补法等方法,回归插补法是常用的一种插补方法,因为保留变量间的关系。然而回归插补法主要处理连续型变量问题,且要满足模型假设条件不易,在使用上受到限制。此外,其它插补法在面对大量记录和变量个数时,效率低且质量无法保证,在类别变量缺失值的处理上相对更无效。本文提出以机器学习观点训练预测模型,可以事先检测模型的预测能力,在面对复杂的数据结构时可选择的模型种类增加,也提高找到缺失真实值的机会,同时在处理大量数据时较有效率。  在多数据源数据加值方法的研究方面,当单一数据源数据无法解决数据加值问题时,可以尝试利用外部数据源为原有数据加值。在Data Mining时处理多数据源数据是很平常的事,外部数据源的选择和数据质量问题是影响匹配质量好坏的主要因素。多数据源数据加值时,外部数据源选择基本假设是两个数据库具有相同的总体,且同时存在共同变量。不同数据源进行数据匹配时有两种可选择的匹配方式:完全匹配和统计匹配,两者的差异在于数据匹配时是否需要使用统计技术。当两个数据库的共同变量具有唯一识别特性时,只需要数据库管理人员使用软件匹配即可,此为完全匹配方式;然而因为对个人隐私权的重视,要取得具有唯一识别变量的外部数据源困难度倍增,同时使得以统计匹配方法合并两个数据库的研究显得更为迫切而有必要。  本文结合数据匹配技术、插补技术和机器学习训练模型等方法,提出四种可行的多数据源数据加值解决方案:追加调查加值方案、完全匹配加值方案、并联匹配加值方案和串联匹配加值方案。四种数据加值方案的区别在于辅助数据库的取得、共同变量的唯一性,以及统计匹配方式的差异,本文尝试系统而完整地讨论多数据源数据加值方法。追加调查加值方案和完全匹配加值方案主要涉及软件程序匹配能力,两者的基本要求是必须具有唯一识别的共同变量,为目前常见的数据匹配方式,是可行的数据加值解决方案。并联匹配加值方案和串联匹配加值方案两种方案涉及两个数据库的统计匹配问题,两者的基本要求是必须具有共同变量,但不要求共同变量具备唯一识别特性。并联匹配加值方案对共同变量的要求比较严格,当建构加值映射模型时,加值目标变量和共同变量间必须具有相关性,否则无法建构适合的加值映射模型。串联匹配加值方案要求两个数据库具有共同变量,将两个数据库以串联匹配方式连结,串联后可视为单一数据库数据加值问题,解决匹配后产生的缺失值问题。  本论文创新之处可归纳为以下几点:  1.完整且有系统地建构Data Mining应用领域中数据加值方法的研究体系,是数据加值方法论的研究。研究从单一数据源和多数据源两个层面,分别探讨数据加值的问题,在不同假设条件下,采用相应的数据加值方案。  2.在单一数据源数据加值方法研究上,以统计预测模型处理缺失值,同时导入Data Mining技术训练插补预测模型,进一步为缺失数据加值。缺失值的处理在国外已有多年的研究历史,然而国内对缺失值的研究仍处于初期研究阶段,以Data Mining技术插补缺失值,则无论在国内或国外都属于一种新的尝试和新的研究方向。本研究认为以Data Mining技术处理缺失值为数据加值是可行的解决方案,同时提出单一数据源数据加值流程及注意要点。  3.在多数据源数据加值方法研究上,首次完整讨论统计匹配问题,同时融合统计匹配、缺失值插补技术和Data Mining技术来处理多数据源数据加值问题,无论在国内或国外都属于一种新的尝试和新的研究方向。  数据加值是一个值得研究的议题,可以改进原有数据的数据质量,提升DataMining结果的质量,减少数据资源浪费。本文尝试从单一数据源和多数据源两个层面来探讨数据加值议题,系统而完整地探讨数据加值方法,对于数据加值后续研究具有一定的参考价值。Data Mining中的数据加值议题尚有许多问题亟待进一步探讨,相关理论研究和实践应用仍处起步阶段,需要更多的专家共同参与研究。
其他文献
期刊
财务管理是企业管理的核心内容之一,这已成为众多专家学者的共识。在财务管理中,控制是财务管理的重要职能,尤其是在集团公司中,财务控制是集团控制的基本手段,完善集团公司内部财
13岁那年,我得到了期待已久的礼物,一只全身雪白的狗狗。我决心要给它取一个优雅、帅气的英文名,但是,在我没找到之前,它已经适应并懵懂地喜欢上了爸爸妈妈给它取的那个通俗
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
“划道道”三十年前向田树苌先生请教:书法如何才能写好?先生说:划道道!什么时候道道划够了,字就写好了。道道划多少才是个够呢?二十年前赵承楷先生给我讲一根线的故事,先生
期刊
期刊
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥