基于免疫遗传算法的聚类与特征降维研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:alx0890
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,各种数据呈几何级数增长,面对这些海量的数据,如何利用数据挖掘技术获取有价值的知识,已经成为学术界和工业界的重要研究课题之一。聚类分析作为数据挖掘过程中的重要组成部分,也受到了广泛的关注。本文将免疫遗传算法应用于数据挖掘方法中,针对高维特征的维数约减和数据聚类问题进行了深入的研究,主要工作包括以下几方面的内容。首先全面分析了遗传算法和免疫算法的原理特性,将免疫机制引入遗传算法中。重点介绍了免疫遗传算法的设计过程和特点。随后从理论层面上剖析了聚类分析的数学描述、数据结构、相异性度量方法以及常用的一些聚类算法。针对k-medoids算法容易受初始聚类中心的影响问题,本文提出将免疫遗传算法与k-medoids算法相结合组成新的聚类方法,这样既可以获得全局最优解,也可以很好的区分孤立点。同时由于使用改进的中心点替换策略,可以加快收敛速度,节约时间成本。采用免疫遗传算法与CHI统计方法相结合进行文本特征降维。文本特征通常采用向量空间模型表示,而高维稀疏的特征矩阵会降低聚类的效率和准确率。本文首先运用CHI方法对文本特征进行降维,使得文本特征从几千维降至几百维,然后在此基础上再利用免疫遗传算法继续降维,这样不仅有效地降低了维数,而且提高了聚类质量。
其他文献
吴昌硕很少以金文入印。然其“瘦碧所得金石文字印”(图一),笔笔见书写意趣。而“暴书麝”(图二),又保留了金文原貌,整体上透露出“吴派”石鼓文的气息。 Wu Chang-seok rar
我县黄芪病虫害已发现有十三种。为害严重的有七种。为害时期可分为苗期、花蕾结英期,整个生育期。黄芪苗期的害虫有:小象鼻虫。花蕾结英期的病虫害有:豆芜菁,蚜虫,蛀茎虫,
近年来,突发公共事件的频发使社会各界对应急管理越来越重视,应急物资的采购关系到应急管理的实施效果,高效率地采购应急物资是应急物资保障的重要前提。目前我国应急物资采
在干旱炎热的季节中,茶树对水分的反应十分敏感,在土壤含水率为田间持水量的90%左右时,茶树生育较正常,当下降到70%以下时,一般壤土茶园在40厘米以内的土壤已缺水48 .0毫米左
我省甘兰型油菜杂种优势利用的研究工作,近几年来已经取得了初步成果。我院作为协作攻关单位之一,对省农科院作物所育成的“湘矮A”及其杂种的有关特性作了一些观察,现将初步
第一届全国摄影艺术展览会在北京的展出已告一段落,不久即将移到广州和上海举行,这次影展较1955年由北京几个单位联合举办的影展,在内容上更加丰富多采,样式更多了,质量也较
10月30日新华社新聞稿登載了一篇題为“一个关心群众疾苦的共产党支部”的新聞。这条五百多字的短消息,报道了一个乡的党的基层組織怎样注意关心群众疾苦,深入地帮助貧苦农
广济县石佛寺公社陈德云大队,位于鄂东南,属滨湖丘陵岗地,全大队耕地面积2,352亩,其中水田1,950亩。1978—1979年度该大队“油-稻-稻”三熟油菜650亩,总产18.5万斤,比上年度
近年来,随着改革开放的不断深入和城镇化水平的迅速提高,人们对土地的需求将会越来越大。经济的增长、人口的增加,同时人们对土地资源的浪费和不合理利用,加剧了中国土地资源
知识管理的迅速发展已经使得现今社会步入了知识时代,知识已经成为社会、组织、企业以及个人最为宝贵的财富,知识管理也成为了理论界一个重要课题而备受关注。而这其中知识协