论文部分内容阅读
在生物信息学的研究过程当中,经常会遇到二分类的问题。例如RNA甲基化预测、蛋白质相互作用预测、蛋白质中二硫键的预测等都属于二分类问题。要解决二分类问题,目前在机器学习中提到了很多算法。比较常用的有支持向量机(SVM)和随机森林(RF)算法。文章在研究一般RF算法的同时,进一步讨论了集成RF算法对于处理非平衡数据起到的突出作用,最后分析总结了一般随机森林算法和集成随机森林算法的优缺点。