全局非线性降维算法C-Isomap的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yuxiguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前人类社会日益深入到信息时代,信息量以级数增长。因此,在进行科学研究的过程中,科学家们经常要处理大量的高维数据,比如全局气候模式,恒星光谱,自然语言,语音波的格式,面部数据分析,还有人类基因分布。这些数据都有大量的冗余和其相关性中隐藏着重要的关系,这样他们可能就会碰到降维的问题,降维的目的就是找出隐藏在他们所观察到高维数据中有意义的低维结构。 目前降维算法大致可以分为两类,一类是线性的方法,如主成分分析法(PCA)和经典多维尺度法(MDS),另一类是非线性的方法,如等距映射法(Isomap)、局部线性嵌入法(LLE)和自组织等距嵌入法(SIE)。 本文首先对几种降维算法进行了研究和分析。经典的降维算法,如PCA和MDS,实现简单,可以确保发现处于高维向量空间的线性子空间上的数据集的真实几何结构。但是这类算法的线性本质使其无法揭示复杂的非线性流形。LLE是一种无监督的学习算法,揭示非线性流形的全局结构。LLE使用一种局域对称和线性重构的方法,将输入空间的点集映射为一个单一低维的全局坐标系,并保持点的邻域关系。SIE利用点集的距离分布作为等距约束条件,通过适当选取保持局域距离分布的局域等距映象,在概率意义上强迫出全局等距嵌入映象。 然后文章重点研究和分析了Isomap算法的优点、缺点、应用、发展。Isomap算法在处理平滑的连续流形时能正确的反映出有意义的嵌入结构,但是其对于一些有局部扭曲和不均匀采样的流形就难以得到好的结果。特别地,短路现象的存在会导致Isomap算法崩溃。针对Isomap算法这种缺点,本文提出一种解决方案:C-Isomap(C1ustering-Isomap)。这个算法应用聚类算法对采样点进行聚类,这样数据点相当于被标上了分类标签,然后我们就可以应用核函数来对不同类或者同类的点之间距离进行优化,使得类内点之间的距离相对更近,而类之间的点的距离就更远一点。这样我们就在求点的邻域时尽可能阻止短路现象发生。 为了验证算法的有效性,文章最后使用Swiss Roll和S-CuEVe两个测试数据对算法进行了实验,相对Isomap和s-Isomalp两个算法来说,在采样点数比较少或者处理稀疏矩阵的时候本算法有着明显好的降维效果,同样在处理密集数据点的时候仍然有较好的重构质量。
其他文献
本文回顾了视频监控系统发展历史过程,简要分析对比了视频监控系统发展的各个阶段的特点以及优缺点,根据当前视频技术的发展现状以及网络技术的发展和网络基础设施的普及与完善