【摘 要】
:
超高维数据普遍存在于生物信息、图像处理和经济问题中.在这类数据中,协变量的维度远大于样本量,并且随着样本量的增加而增加,然而起到作用的变量却是少数,呈现出稀疏的特点.在统计建模的过程中,如果选入了与响应无关的变量,一来会干扰对变量间关系的理解,二来今后需要对该变量进行持续观察而加大成本.需要从中筛选出重要的变量以降低协变量的维度.在超高维数据中,传统变量选择方法计算代价高、统计精度和算法稳定性都受
论文部分内容阅读
超高维数据普遍存在于生物信息、图像处理和经济问题中.在这类数据中,协变量的维度远大于样本量,并且随着样本量的增加而增加,然而起到作用的变量却是少数,呈现出稀疏的特点.在统计建模的过程中,如果选入了与响应无关的变量,一来会干扰对变量间关系的理解,二来今后需要对该变量进行持续观察而加大成本.需要从中筛选出重要的变量以降低协变量的维度.在超高维数据中,传统变量选择方法计算代价高、统计精度和算法稳定性都受到挑战.为了克服超高维所带来的问题,以SIS(Sure independent screening)为代表的特征筛选方法受到关注,发展出许多有效的方法.本文研究的是超高维删失数据的特征筛选问题,响应变量被右删失,需要通过观测数据筛选出与响应变量相关性强的特征变量.由于响应变量没有被完全观测,直接应用SIS等方法进行特征筛选会有较大的偏差,如果只用样本中被完全观测到的那部分,对样本中所包含的信息的利用又不够充分,虽然现在也有不少学者研究超高维删失数据的特征筛选问题,但一般都基于指定的模型,或是假定删失变量与协变量无关,在使用时稳定性较差.
本文利用条件分位数分别在响应变量非随机删失和随机删失的情形下研究了超高维数据的特征筛选问题.使用条件分位数可以将删失问题转换为完全观测数据的问题,在响应变量被非随机右删失的时候,利用响应变量观测值的条件分位数度量了每个特征和响应变量之间的相关性,然后利用该相关系进行特征筛选.在响应变量被随机右删失的时候,允许删失变量与部分活跃变量(与响应变量相关的变量)具有相关性,利用响应变量观测值关于删失变量和特征变量的条件分位数,可以度量每个特征和响应变量之间的相关性.
在一定假设下,非随机删失时的特征筛选方法具有确定筛选性质和排序一致性;在删失变量与部分活跃变量相关时,随机删失时的特征筛选方法也具有确定筛选性质和排序一致性.模拟表明,与已有的方法相比,在非随机删失时,利用单调不变性所建立的方法不仅在计算形式上更简单,在筛选能力上也不亚于其他基于条件分位数的方法;在随机删失时,如果协变量与删失变量相关,所提该方法具有相对优势.
其他文献
本报告实质上是关于中医哲学研究的论文集,以秦汉时期为主。主要包括五个方面的内容:中医哲学原理、秦汉中医哲学思想的嬗变、三教对中医哲学的影响、汉后中医哲学研究举隅、少数民族医学与哲学举隅。 本报告的主要内容有:对中医哲学的概念、研究内容、研究方法、研究意义作了较为系统地论述。逐一辨析巫医同源、医易同源、医道同源、医儒同源这四种众说纷纭的“同源”。提出道医与术医的概念,有助于找到近现代中医危机的深层
从伦理学作为实践哲学自身的实践或应用的本质来看,它是一个实践或应用过程,这就是广义的应用即是指伦理学从对自身的目的至善的追求所开始的否定自我、展现自我、实现自我的过程。它是由经验伦理、理论伦理学到应用伦理学(可称之为狭义的应用)的过程。应用伦理学是理论伦理学的自我反思、自我否定的产物,不是理论伦理学自身之外的其他东西。应用伦理学关心的主要是各种现实问题之间的冲突所带来的整体一类和类一类(如人类和物
改革开放三十多年来,发展问题已成为中国人思维方式和政治话语系统得以逐步转换的中轴。这不但需要人们从技术操作层面对“如何发展”的问题、从政治层面对“实现什么样的发展”的问题进行思考,更需要我们从马克思主义哲学的学理层次,并借鉴现当代其他理论思潮的理论视角,对当代中国社会的快速发展和急剧转型进行合理的反思和建设性批判。而马克思所开启的资本批判视角和一些现当代思想家所执着的现代性批判视角,无疑为我们深入
苏联哲学教科书对毛泽东《实践论》、《矛盾论》(下文简称为“两论”)的形成产生了重大影响。剖析这些影响,不仅有助于人们从理论渊源上理解毛泽东哲学思想的形成和发展,有助于人们更为深入地理解影响中国革命和建设实践逻辑进程的深层因素;更为重要的是,通过这一研究,有助于人们了解和学习毛泽东如何将马克思主义基本原理与中国革命的具体实际相结合,并在这种结合中发展马克思主义的科学精神和科学方法,有助于人们在理论和
农业从古至今都是我国的支柱型产业,在经济发展中发挥着重要的作用,但由于农业自身生产周期较长的特殊性,自然条件的变化以及市场价格的波动会对农业的生产情况产生很大影响。这也就意味着,农业的发展不能靠其自身的自给自足而需要国家给予大力的支持,以保证其健康持续的发展。广西作为西部少数民族地区和后发展欠发达地区,农业人口占比大,广西农业发展对财政支农资金的要求更为紧迫,任务更为艰巨。研究广西财政支农支出的效
改革开放四十年来,中国经济发展取得巨大成就,规模庞大的流动人口是城市化、工业化进程的重要驱动要素,但他们在共享改革发展成果方面相对处于弱势,集中表现在基本公共服务的保障、合法权益的维护、生活条件的改善等方面,致使流动人口的城市融入问题备受关注。在流动人口财富积累水平偏低、缺乏财产性收入的情况下,工资性收入几乎构成了其收入的全部来源,成为流动人口融入城市发展的经济保障,因而工资收入水平直接影响到流动
2020年中央农村工作会议强调:“加大财政涉农资金统筹整合力度,发挥财政资金的撬动作用,引导社会资本和信贷资金投入农业农村;深化农村金融改革,发展普惠金融,支持涉农金融机构的金融科技创新和应用,更好地服务农业农村”。同时,2021年中央一号文件指出:坚决把解决好“三农”问题作为工作的重中之重,加快农业农村现代化,实现农民生活富裕富足,农民增收增长继续快于城镇居民。在继续实施精准施策和帮扶机制的基础
当数据量非常大或者数据以分布式的方式存储时,由于计算机存储和内存的限制以及通信成本等方面的考虑,传统的统计推断方法不再可行。为了有效地解决大数据情形下的分位数回归模型参数估计问题,本文基于分治策略的框架下提出了一种基于平滑经验欧氏似然的分位回归分布式估计量。分治策略的优势在于只需要在本地设备中计算并传输一些低维的统计量,然后利用渐近可以忽略的误差,就获得整个数据集分位数回归模型的参数估计。在一定条
添加次序试验是一种研究材料或成分的添加顺序对结果有影响的试验,这种试验的主要目的在于预测和确定优化反应中反应物的最优添加次序。由于添加次序试验的广泛应用空间,许多学者提出了不同的模型和设计表,但当整个添加次序试验要考虑试验因子的因子效应对结果的影响时,相关的设计方法和理论变得复杂,现有的方法也较少。针对这种情况,本文提出了一种设计表构造方法,基本思想是将部分全添加次序设计表与两水平部分析因设计表通
在疾病筛查的研究中,分组检测(Group Testing)是一种常用方法,该方法通过集合多个样本合并检测进行个体性状分类,替代了单体检测来筛选患病个体,具有节约成本的优势.1943年Dorfman提出的分组检测方法被认为是该领域的开创性发展,自那开始,该方法得到越来越多统计学者的关注,目前已经应用至公共医疗卫生、生物、化学、药物筛选、基因选择等领域,为大规模人群疾病筛查节约了成本.我们讨论的分组检