论文部分内容阅读
二代测序NGS(Next-generation sequencing)数据的迅速发展加快人们对于基因的探索,同时也给测序数据分析任务带来更大的挑战。癌细胞特异变异的识别是测序数据分析的一项重要基础性工作。当前的变异识别工具大多采用贝叶斯模型方法,特异度、灵敏度和速度都远远满足不了需求。K-means是一种简洁高效的无监督聚类算法,基于此将位点信息映射成多维的特征,再进行类别个数为2的聚类过程。该算法明显提高了准确度和召回率,实验结果验证了算法的有效性。