基于智能算法的DNA聚类研究及应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:bolen9999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代生物技术的不断发展特别是人类基因组计划的实施,人们不断获取大量的基因序列数据。面对如此大量的基因序列数据,只有很少一部分基因我们己经知道它们的功能,而大部分基因的功能还是未知的。数据挖掘中的聚类技术正是能够对大量基因数据进行分析的技术。通过聚类技术将这些基因序列进行聚类,得到一些聚在一起的类。由于同一类中的基因序列具有相似的功能,这样我们就可以利用同一类中己知功能的基因推测同一类中未知功能基因的功能。目前生物信息领域的研究中,聚类分析已经得到了广泛的应用。其中生物序列聚类的关键问题就是如何刻画序列间的相似性。而生物序列数据本身的线性排列表示有时难以体现序列间的相似程度,使得在某些情况下,一些相似性度量失效,从而影响了聚类结果的质量。所以如果完全从序列本身出发设计相似性度量,将不能得到符合真实生物学观测的聚类结果,为DNA序列的进化研究带来了一定的困难。伴随着DNA序列图形表达的研究的深入,Randic等人首先提出利用DNA序列的图形表达来研究序列的聚类问题的思想。本文利用这种思想,借助DNA序列的图形表达所抽取的数学特征对序列进行聚类。本文参考已有的基于碱基对称性的DNA序列的二维图形表达方法,做了相应的改进,提出一种新的图形表达的方法。使得改进后的图形表达方法更加节省空间,而且能够更加清楚的体现出DNA序列的生物学特征。利用这种方法,把每个DNA序列按照三组映射规则,转化成三条二维曲线,然后从曲线中提取特征矩阵,最后利用矩阵的不变量对DNA序列进行聚类研究,这样,一条DNA序列就被转化成一个多维数据对象。因此,对DNA序列的聚类问题就转化成对多维数据的聚类了。现有的对多维数据进行聚类的常用聚类算法,通常需要事先给定聚类数k。但在大多数情况下,聚类数k事先无法确定,因此需要对最佳聚类数k进行优化处理。本文采用基于微粒群算法的聚类算法。为了解决微粒群聚类算法无法确定聚类数k的现象,通过k均值算法的引入,实现最佳聚类数k的求解和聚类有效性函数的构造,试验证明引入类间距离的聚类有效性检测函数对最佳聚类数判别科学,同时由于检测函数中类间距离权重的引入使该检测函数可以更好的应用于现实数据分析。
其他文献
由中国社会科学院新闻研究所召开的,以交流情况、加强协作、促进科研、早出成果为目的的全国新闻研究工作座谈会,于1981年12月7日至12日在北京举行。中央和各省(市、自治区)
新华日报为了配合党在农村的政治思想工作的需要,用毛泽东思想武装广大农民,近两个月来,开展了广泛深入的以“为革命种田,用革命精神种田”为中心內容的宣传报道。这个报道
新华通讯社总社全体工作人员怀着欢欣鼓舞的心情,在四月二十七日举行盛大欢迎会,热烈庆祝亲爱的战友王唯真、鞠庆东同志胜利归来。同志们用长时间的热烈鼓掌和欢呼,高呼口号
万峰潮涌,万峰谷潮头逐浪,独领风骚。9月25日,由贵州万峰谷生态文化旅游发展有限公司、中科创金融控股集团主办,本刊协办的“万峰·潮贵州·兴义·中国国际山地旅游城暨万峰
荣县常年花生种植面积约5万亩.过去,由于没有摸清土壤底细,加之栽培技术不当等原因,致使全县花生产量长期处于低产状态,平均亩产只有200来斤.是荣县不适宜种植花生吗?不是.
在杂交水稻制种时,由于不育系比父本(恢复系)开花时间长,因而在制种上普遍使用三期父本,以延长父本抽穗时间来保证母本整个开花期对父本花粉量的需求,所谓“母本”头花不空
目前在我国矿井建设项目中概算超估算,预算超概算,结算超预算的“三超”现象极为普遍,建设项目投资失控处处存在,这集中体现在投资效益低下、资金使用效果不理想、投入与产出不相
无线传感器网络奇异信号对故障诊断具有重要意义,针对当前无线传感器网络奇异信号检测结果不理想等问题,提出小波分析和混沌理论相结合的传感器网络奇异信号检测算法。采用小
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
枣园,是伟大领袖毛主席生活和战斗过的地方。在毛主席给延安人民光辉《复电》的指引下,枣园大队党支部带领广大贫下中农,狠抓两个阶级、两条道路、两条路线的斗争,打击阶级