【摘 要】
:
相似性度量是人工智能的基础问题之一,它涉及数据挖掘、机器学习、自然语言处理和信息检索等多个领域。传统的许多分类,聚类,特征选择算法的性能在很大程度上依赖于一个好的
论文部分内容阅读
相似性度量是人工智能的基础问题之一,它涉及数据挖掘、机器学习、自然语言处理和信息检索等多个领域。传统的许多分类,聚类,特征选择算法的性能在很大程度上依赖于一个好的相似性度量。一些常见的相似性度量方法如Minkowski距离,Euclidean距离,Mahalanobis距离,Manhattan距离和Cosine Angle距离等已被广泛使用,这些相似性度量方法往往存在这样或那样的缺陷,如为了计算的统一性需要转换不同类型的属性,从而可能改变数据的原意或是丢失一些信息。但是实际应用中的许多数据集往往包含多种类型的数据,因此,设计一种好的相似性度量显得至关重要。本文将相似性度量的概念加以推广和扩充。从数据空间覆盖关系的角度提出一种新的相似性度量方法,并在此基础上设计和实现了相应的两种算法:(1)基于数据空间部分覆盖的分类算法(PCC)(2)基于动态部分覆盖的特征选择算法(DPC)。在UCI机器学习公共数据集和来自于实际应用中的化工产品的毒性预测数据集上的实验结果说明这两种新算法的有效性和与传统的的数据挖掘算法的可比性;我们也结合邻近集计算的相似性度量思想提出了一种基于时间权重邻近集计算的算法,在基于历史数据经济数据分析领域中的股票市场预测上取得了良好的效果;采用有序树匹配的思想,提出了基于页面结构相似性度量的WEB页面聚类方法,并应用于WEB信息抽取中。实验结果体现了这些新的相似性度量方法是对现有的相似性度方法的有效补充,具有广泛的应用基础。
其他文献
目的:分析对院前急救危重病症的认识与应急救处理功能,为临床应用提供参考价值。方法选取院前出车急救16741例的年龄、病种进行分析总结,探讨院前急救策略。结果16741例院前急救
无线传感器网络(WSN)是一种集成了传感器、嵌入式计算、网络和无线通信等技术的新型无基础设施的无线网络,它由部署在监测区域内的大量的廉价微型传感器节点组成,能够协作地
随着生活节奏的提高,人们的健身场所逐渐由户外转移到户内,这既促进了室内健身器械产业的发展,也带来了巨大的挑战。人们不再满足于某一健身器械提供的单一运动,要求在使用健
近年来,对教师的研究中,教师职业认同已经逐渐成为一个独立的研究主题。在教学和教师教育领域中,教师职业认同在很大程度上决定着教师的教学方式、成长方式和对待教育的态度
跆拳道作为现代竞技体育项目,已在全球范围内得到了空前的普及和发展, 1995年我国决定开展跆拳道项目至今,虽然在少数级别上实现了大赛金牌零的突破,但整体实力水平发展不均
近几年,随着改革进入攻坚期和深水区,国有企业面临日益激励的国际竞争和转型升级的巨大挑战,在多方推动下参与到并购重组活动中。国有企业作为中国特色社会主义的重要物质基
虽然蛙泳是初学者入门接触的第一种泳姿,但是由于蛙泳腿部技术较为复杂,初学者想熟练掌握,以及提高并不容易。游泳辅助器材是游泳教学和训练中必不可少的辅助手段。但是针对
绩效管理是近几年的热门话题,电力行业日益市场化的改革使得电力企业面临更加大的挑战,如何在大环境下结合国际化趋势,发展一套适合本行业的绩效管理模型成为了当前的重要任
全国多省市开展的定向培养乡村小学全科型教师计划,均在户籍、学籍方面设定了准入路径,在客观上限制了在更大范围进行人才选拔的可能。2016年安徽省首批定向培养的乡村小学全
在营养训练科学理念的大背景下,以马鞍山市体育运动学校学生为研究和实践对象,具体实践'营养与训练'的理论,探索科学训练的手段与合理营养摄入相结合的途径,使'