论文部分内容阅读
高维数据是大数据时代的标志,高维数据特点是数据维数远远大于样本容量,各个科学领域都充斥着高维复杂数据.在实际研究应用中,数据复杂数据量大且结构多样,部分变量具有复杂的群组特性,例如基因序列数据、卫星数据、金融数据等.因此有效选择相应的群组变量是准确分析数据的前提.本文分析研究了复杂群组变量选择方法及其在Logistic等模型中的理论性质以及实际应用,具体研究内容和结果有:
(1)Logistic模型广泛应用于复杂群组变量中,将群组MCP方法应用于Logistic模型,理论证明了在正则条件下群组MCP的Oracle性质.并将该方法与群组Lasso方法进行数值模拟比较,结果表明群组MCP方法的在复杂群组变量选择上筛选准确性更高,体现出优良的群组变量选择性质.
(2)复杂群组变量选择通常采用惩罚函数形式,研究比较了不同的群组变量选择基本原理以及算法,结果表明Composite MCP组惩罚方法在预测能力和变量选择上均优于其他三种群组惩罚方法.将四种群组变量选择方法运用到销售网络办公软件公司广告数据中,验证了Composite MCP方法在广告转化研究中效果是最优的,并且通过比较选择出影响广告转化的群组结构及单个变量,为选择有效的广告投放策略提供合理的依据.
(3)传统高维群组变量选择方法在处理超高维数据时,可能导致准确性不高、算法稳定性不强等问题,此时需将超高维数据降维到一般地高维数据再利用群组MCP等方法进行变量选择.考虑超高维数据往往具有群组结构的特点,研究线性模型下的超高维筛选方法,并将其推广到可加模型中.
(1)Logistic模型广泛应用于复杂群组变量中,将群组MCP方法应用于Logistic模型,理论证明了在正则条件下群组MCP的Oracle性质.并将该方法与群组Lasso方法进行数值模拟比较,结果表明群组MCP方法的在复杂群组变量选择上筛选准确性更高,体现出优良的群组变量选择性质.
(2)复杂群组变量选择通常采用惩罚函数形式,研究比较了不同的群组变量选择基本原理以及算法,结果表明Composite MCP组惩罚方法在预测能力和变量选择上均优于其他三种群组惩罚方法.将四种群组变量选择方法运用到销售网络办公软件公司广告数据中,验证了Composite MCP方法在广告转化研究中效果是最优的,并且通过比较选择出影响广告转化的群组结构及单个变量,为选择有效的广告投放策略提供合理的依据.
(3)传统高维群组变量选择方法在处理超高维数据时,可能导致准确性不高、算法稳定性不强等问题,此时需将超高维数据降维到一般地高维数据再利用群组MCP等方法进行变量选择.考虑超高维数据往往具有群组结构的特点,研究线性模型下的超高维筛选方法,并将其推广到可加模型中.