论文部分内容阅读
目的探讨在基因芯片聚类分析前对数据进行主成分分析是否有助于提高聚类的准确性。方法选取3组包含大量被生物学家人为分类基因的芯片数据集Budding yeast、Saccharomyces cerevisiae、Central nervous system作为实验数据,分别计算对原数据直接聚类和提取主成分后聚类的结果,并以信息变化量为指标衡量这些结果与人为分类的匹配度。采用启发式算法搜寻最优主成分组合,比较欧几里德距离和相似系数2种距离度量方法以及层次聚类和K-重心聚类2种聚类算法的结果。结果在3组数据集中,