统计机器学习中的特征选择方法综述

来源 :2009中国计算机大会 | 被引量 : 0次 | 上传用户:eyeryonecheat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择通常被视为数据挖掘的第一步,特别是对于高维稀疏数据,通过特征选择可以去除大量的冗余和不相关特征信息的干扰,有效降低问题特征空间的维数,从而提高对目标函数的预测性能,降低分析成本,而且经过选择的特征更易于被人理解,有利于揭示底层数据中蕴藏的有用信息.本文的主要贡献是对特征选择方法的发展历史和现状进行了跨学科的广泛调研,在此基础上总结提出了通用的方法定义和算法流程框架,并对特征选择方法研究和实践中需要注意的若干关键问题进行了综述.此外,本文对时下受到广泛关注的规范化特征选择方法,特别是以套索方法为代表的一类基于惩罚约束的自动特征选择方法进行了重点分析,该方法因其优良的特性和在常规方法难以胜任的高维特征空间取得的初步成功而备受关注,成为当前研究的焦点,为高维特征空间的特征选择提供了一个有希望的解决方案.
其他文献
给出了高速率室内UWB系统基于积分窗口能量收集算法的理论分析框架。首先得到等效信号接收模型,再使用MLSE均衡消除ISI。从等效接收信号模型可以看出,ISI干扰呈非对称的特点,
Web服务的语义建模是指对Web服务的属性、功能和结构等进行语义描述使用户能够对服务自动地定位、选择、使用和组合。本文以动作理论和描述逻辑为基础对服务的逻辑层信息(控
会议
藏文的信息化处理具有重要的理论意义和实用价值.本丈主要对藏文联机手写识别的流程和算法进行了讨论.对比了汉字联系手写识别的方法,本文提供了有效的改进方案和实验数据,包括
信息集成过程中出现的重复记录的存在为数据处理和分析带来了困难。重复记录检测已经成为当前数据库研究中的热点问题之一。基于二分图最优匹配的重复记录检测算法具有考虑到
会议
现实数据库中的不完整数据、不一致数据、重复数据等非清洁数据为数据库的有效使用带来了影响,在包含非清洁数据的数据库中,如何进行高效的OLAP分析为数据库研究带来了新的挑战
二、苗期管理 1.温度管理原则是:前升、中控、后降。幼苗出土 前以升温为主。温度适宜,出苗快,减少病害,有利苗 齐、苗全、苗壮、苗均。白天室温应达到25~30℃;夜间室 温要达
一  我对做空这事非常能理解。  这几年,中国有一批到美国买壳上市的公司,不客气地讲,这里面骗子比例相当高,一些造假方法超过美国人的想象。拿出那种玩儿A股的精神,第一年赢利,第二年亏损,第三年就ST。路演的时候给人吹得都挺好,一到交季报的时候就老做不到。  再加上中国互联网行业又存在VIE(可变利益实体)结构,国家本来应该给个明确的说法,又含糊其辞。熟悉中国国情的人都知道,VIE这事儿已经是板上钉
Web服务技术的发展和流行使得互联网上Web服务逐渐增多,并出现一些功能相同或类似的服务,要选择合适的服务,需考虑服务的QoS属性及用户对属性的偏好.用户通常习惯用定性概念表示
汽车电子软件(Automotive Software)是一类控制汽车机械和动力部件、实现各种汽车安全和舒适功能的高可靠实时嵌入式软件,其需求分析和设计方法是目前软件工程面临的重要挑战
会议
由于网格数据库运行环境的动态性,传统的基于静态优化的查询处理技术效率不高。给出了网格数据库连接查询流水线处理的代价模型。提出了一个基于流水线、自适应的连接查询处理
会议