肿瘤基因数据的特征降维算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:wlm7411814
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因微阵列技术的发展,使得研究人员能够快速、方便的获取大量的基因表达谱数据,这些数据为疾病在分子水平上的诊断和分析提供了新的可能,然而如何利用数据挖掘技术从中提取和分析有价值的信息已成为对基因表达谱数据有效利用的关键所在。基因表达谱数据通常包含成千上万的基因表达值,同时,由于基因表达的检测成本高,肿瘤病例的表达谱数据相对较少,造成高维度和小样本是肿瘤基因数据的主要特点,导致了无法避免的维度诅咒问题。此外,由于与肿瘤疾病相关的基因表达通常只占有很少的部分,现有方法不能直接对肿瘤基因数据进行有效分析,同时也对肿瘤疾病的诊断和识别构成了巨大的挑战,已成为当前对其进行数据挖掘所面临的主要问题,而降维是对肿瘤数据有效处理的手段,通过降维能够有效识别与肿瘤疾病相关的基因表达或提取与肿瘤鉴别相关的成分。因此,本课题拟针对肿瘤基因数据集的特点提出两种降维算法,通过降维来获取更具有辨识性的特征子集或相关成分,提高肿瘤数据的分类能力,并通过在多个肿瘤基因数据集上的实验来验证算法的有效性。本文的主要工作如下:(1)针对肿瘤基因数据因高维而难以有效选择相关特征子集的问题,提出一种结合最小冗余最大相关算法(mRMR)和改进磷虾群算法(IKH)的混合特征选择方法来选择高相关的特征子集。该算法使用五折交叉验证的分类精度和特征数量加权作为适应度函数,同时采用指数非线性递减的步长调整策略和精英粒子混沌变异增强磷虾群算法的全局搜索能力,并在多个公开的肿瘤基因数据集上进行实验,结果表明本文算法能够在获取更少的特征子集的同时取得更好的分类能力。(2)针对肿瘤基因数据集因存在大量无关、冗余的特征,且受到小样本的影响,肿瘤类型的识别率比较低的问题,提出结合mRMR算法特征选择、序列前向选择算法(SFS)特征排序和偏最小二乘算法(PLS)特征提取的混合特征降维算法。该算法采用mRMR算法对特征进行初步排序,筛选一定数量相关度高、冗余度低的特征,进一步采用SFS算法提升特征排序质量,然后通过迭代逐渐增加排名靠前的特征,并采用PLS算法提取相对应的成分,利用提取的成分构建分类模型并计算分类准确率,最后选择迭代结果中分类准确率中最高的作为最终结果,通过6个公开的肿瘤基因数据集的实验结果表明,该算法具有良好的分类能力。
其他文献
(1)以玉米淀粉(CS)为原料,结合壳聚糖(CH)在增塑剂甘油的作用下通过溶液浇铸法制备了壳聚糖/玉米淀粉复合可食薄膜,运用傅里叶红外光谱(FTIR)和扫描电镜(SEM)对玉米淀粉薄膜的结构及表面和断面微观形貌进行了表征,研究了壳聚糖的含量对薄膜机械性能、水蒸汽透过性、阻油性及抗菌性能的影响。结果表明,适量的壳聚糖可以较明显地改善薄膜的机械性能,提高其隔水和阻油性能,壳聚糖可以与玉米淀粉之间形成氢
轻度认知障碍(Mild Cognitive Impairment,MCI)指的是当老年人的认知功能水平介于正常人和阿尔兹海默症(Alzheimer Disease,AD)患者之间时的一种病理状态,它具有可逆性的特点。但是,阿尔兹海默症是具有不可逆性的,因此,准确地筛查出老年人是否患有轻度认知障碍,是有效预防阿尔兹海默症的一个关键因素。语言作为人类的一种高级认知功能,能够很好地反映人的认知能力,因此
学位
复杂环境下的车牌定位与字符分割一直是车牌识别技术的重点和难点。复杂环境下的许多场景,均会严重影响车牌定位与字符分割的快速性和准确率,造成车牌识别失败。诸如存在反光、背光、光照不均匀;拍摄角度不确定和拍摄距离远近不一;车牌纹理特征相似或存在与车牌底色相近的车灯、保险杠、车牌标志和广告信息牌等;车牌存在污损、字符粘连与断裂。针对复杂环境下车牌定位、字符分割存在的难点,提出一些有效的改进措施。(1)车牌
学位
学位
学位
近年来,我国城市轨道交通高速发展使城市化进程加快带来的环境污染、交通拥堵等问题得到了极大改善。同时随着城市轨道交通线网规模的不断扩大,能耗剧增问题日益突出,如何降低运行系统能耗已经成为目前保持城市轨道交通绿色可持续发展的核心问题之一。在城市轨道交通运行系统的日常能源消耗形式中,其主要能耗构成形式为列车运行牵引力做功所消耗的能量。因此,研究降低列车运行牵引能耗对于减少系统总体能耗与运营成本具有重要的
我国西北内陆河流域气候干旱、水资源短缺,水是中游洪积平原经济发展的命脉,也是下游荒漠绿洲生命的源泉。中下游地区突出的水资源供需矛盾,使流域水资源精细化调度管理成为地区经济、社会、生态可持续发展的共识,而在流域上游修建大中型水利枢纽工程是实现该共识的重要手段。黑河作为我国第二大内陆河,实现其水资源精细化调度管理具有重大意义,本文以黑河上游龙头控制性水利枢纽工程为研究对象,建立了面向绿洲生态、农业灌溉
随着列车运行速度的不断提升,传统的人力驾驶方式难以满足列车的性能要求,长时间、远距离、高密度地运行容易引起司机疲劳等安全问题,因此为了保证高速铁路安全、高效地运行,列车自动驾驶(Automatic Train Operation,ATO)系统必然成为列车控制的重要研究方向,其研究具有一定的现实意义及社会价值。本文首先对高速列车ATO系统进行分析研究,过程如下:对列车的行驶过程、受理情况及牵引制动系