论文部分内容阅读
肌萎缩性脊髓侧索硬化症(Amyotrophic lateral sclerosis,缩写为ALS)是一种少见但是早有记载的运动神经元疾病。随着上下运动神经元功能的丧失造成肌无力、瘫痪并通常在发病后的3至5年内死亡。目前,即使通过临床治疗的手段也仅能在某种程度上延缓其死亡速度。为了帮助临床护理,并确定新的疾病预测因子,本文主要针对ALS临床数据的特征选择及其预测方法进行研究,对该病的发病进程实现短期的预测,具体研究工作包括:(1)采用特征选择方法对ALS临床数据集进行特征选择,从患者的特征组中挑选出一些最有效的特征子集以降低特征的维数空间,而实验数据集中是否含有相关信息或者冗余信息是直接影响后期分类的性能。所以,针对这一临床数据集的数据特点,选用贴合该ALS临床数据集的特征选择方法至关重要。在本论文中,在随机蛙跳算法的基础上提出了随机蛙跳结合偏最小二乘(Random Frog Al-gorithm coupled with the Partial Least Squares,RFA-PLS)方法进行特征选择。RFA-PLS算法通过随机蛙跳模型可以有效地对模型空间进行搜索并确定特征子集,同时通过结合主成分分析方法可以有效地去除相关程度较高的特征。实验证明RFA-PLS算法在处理ALS数据集上具有比其他特征选择方法(如随机森林,LASSO)更好的选择性能,同时,选择得到的特征子集中的特征不仅相关性低并且都具有一定的代表性,可以有效地代表整个ALS临床患者的整体情况。(2)针对上面所选择出来的ALS特征子集,本文提出了基于多项式改进的偏最小二乘回归(Partial Least Square Regression,PLSR)对ALS在短期内的疾病发展进程做预测。针对该问题,本文同时采用了一些比较常用的回归算法做对比,比如:支持向量机回归(Support Vector Regression,SVR)以及岭回归(Ridge Re-gression,RR)。实验结果通过均方根偏差和皮尔斯相关系数进行评估,对比分析后发现PLSR方法的时间复杂度低,鲁棒性比另外两种方法要强。总之,本文提出的方法可以有效预测未来的ALS患者的疾病进展,有助于了解ALS的发病机制,在临床试验中的新的治疗方法提供可参考的指导性建议。