基于相似性度量图的一种半监督学习算法中的若干关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tanyanlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于相似性度量图的半监督学习算法是机器学习领域一个很重要的研究方向。其中,图的顶点集合为数据样本集合,边表示样本之间的相似性,因此基于图的方法具有直观、可解释性。且基于图的方法通常在实际场合中较其他半监督学习方法有更强的分类能力。然而基于图的方法通常涉及矩阵求逆,整体时间复杂度较高:基于完全图的算法的时间复杂度为O(n3)(n为数据样本集合大小);稀疏矩阵的求逆有很多快速算法,但是稀疏矩阵的逆矩阵一般不为稀疏矩阵,从而基于稀疏图(k-近邻图)的算法的整体时间复杂度一般不低于O(n2),同时存储大规模稠密矩阵也十分困难。由于基于图的方法其固有的较高的时间复杂度,使得基于图的方法很难应用到较大的数据集中去,这使得降低计算开销成了研究这类算法的重要目标。本文对基于相似性度量图的半监督学习方法进行深入的分析、研究。在前人研究的基础上,针对该类方法的两个重要性能瓶颈:k-近邻图构建(O(n2))和图优化(最坏O(n3)),提出了快速的k-近邻图构建算法FastKnn算法及其并行实现,和并行的基于类标号传播的图优化算法。具体来说:  通过对现有k-近邻图构建算法—RLB和NNDes—进行分析、改进,本文提出了时间复杂度为O(nlogn)的高效的k-近邻图构建算法FastKnn,该算法适用于任意的相似性度量方式,应用范围广泛。FastKnn算法包括两个重要的部分:“递归的空间划分”和“近邻传播”,该算法通过迭代这两步操作来不断提升所构建的近邻图的精度。从理论上分析了迭代方式的合理性。然后,为了进一步提升FastKnn算法的性能,针对空间划分和近邻传播算法,本文给出了相应的并行化实现。实验验证了FastKnn算法在多个数据集上的良好表现,同时并行的FastKnn算法能进一步大幅的提升算法的性能。  “基于高斯场和调和函数的图方法”和“局部和全局一致性约束方法”是两类主流的图优化方法,然而,这两类算法有较高的时间复杂度,使其难以应用于大规模数据集。本文对这两类图优化方法进行了深入的研究,在前人理论基础上实现了线性时间复杂度O(nm)(m为迭代次数)的基于类标号传播的并行图优化算法。同时,本文实现了数据访问顺序优化算法来提高缓存命中率,从而进一步提升了并行图优化算法的性能。实验表明,在多个数据集上只需要标注极少量样本,类标号传播算法可以取得比一些优秀的无监督算法更好的分类精度。同时,并行算法具有良好的加速性能,在采用数据访问顺序优化策略后,并行加速性能可以得到进一步提升。
其他文献
在作决策时,描述方案的各个属性对决策者而言,它们的权重是不同的。各个指标的权重的大小,对最终的评价结果起着至关重要的作用。因此,在建立综合评价模型时,各指标的权重确定是核
随着计算机的应用与互联网的普及,网络教学迅速发展,成为计算机学者和教育工作者关心和研究的热点。近期的研究多数以新型教学理论为依据,研究在网络环境下,以“学”为中心的教学
本文在分析现有主要的聚类算法的优缺点和适用范围的基础上,结合Web日志挖掘的特点,提出了一个适合对大规模事务数据,如购物篮数据和Web日志数据进行聚类挖掘的算法——直方图统
随着网络和多媒体技术的飞速发展,和网络视频相关的应用越来越多,人们对视频监控产品的要求也越来越高。SIP协议是一个信令控制协议,它提供了用户定位、媒体参数协商等功能。
软件复用是解决软件危机,提高软件生产效率和软件产品质量的现实可行的途径。基于构件的软件开发是软件复用的重要方法之一,其前提是存在大量可复用的构件,且复用者能够准确、高
随着云计算产业的发展,其核心技术之一——虚拟化技术在数据中心中得到了广泛的应用。虚拟机的动态迁移作为虚拟化技术的一项重要特性,在数据中心的管理中有着重要作用。而虚拟
面向服务的计算(Service Oriented Computing,SOC)是目前计算机领域的一个研究热点。采用基于Web服务的SOA(Service Oriented Architecture,SOA)构建Web服务应用(Web Service A
自从SSL(Secure Sockets Layer Protoco1)被提出以来,安全信道协议(简称安全信道)已经被广泛地应用于通过公共网络传输秘密消息。然而,直到近年来Canetti等学者才在UC安全框架(
学位
面对符合幂律分布的大规模图数据的分析处理,分布式环境下BSP(bulksynchronous parallel)模型的计算效率优于链式MapReduce计算模型的计算效率。而在图计算任务开始前,分布式图
随着网络应用的深入和安全意识的提高,各种安全技术也得到了前所未有的发展和应用。作为信息安全的核心技术,密码技术越来越受到人们的关注。密码技术的应用已不再局限于军事、