基于信息熵的类别变量的数值化方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhangtao870508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论是学术上还是工程实践中,数据预处理是整个数据挖掘中最基础也是最费时的一个环节,其中数据类型的转换也是重要一环。聚类算法中,旨在将数据集划分为有意义的簇,簇内高内聚,簇间低耦合,往往是抽象为样本之间的距离来聚类,因此许多聚类算法都要求样本集中变量必须是数值型;分类算法中,虽然随机森林、神经网络等算法对变量类型的要求并不严苛,但是在经典的逻辑回归算法中,仍需要对数据进行数值化的预处理。该文介绍了一种基于信息论,对样本变量中类别型变量(categorical variables)进行数值化处理的方法,分别在
其他文献
利用带有全球定位系统功能的手机,结合软件技术和地理信息系统技术,以小型化的数据库系统作为后台支持,研究实现了基于物联网的智能校园导航系统。系统通过对校园内的建筑信
西部教育正在发生变革,国家正在实施教育精准扶贫,西部的社会及家庭的教育消费观正成为西部发展的一种时尚投资。民族教育改革向追求质量及效益的时代为期不远。在西部教育改
目的探讨闭锁性脊膜膨出的诊断和治疗.方法手术治疗7例闭锁性脊膜膨出患儿.结果7例患儿手术效果满意,手术和病理结果证实术前诊断.结论闭锁性脊膜膨出是一种在胚胎期脊髓脊膜
基于模型的Meta分析(model-based meta-analysis,MBMA)是一个定量的药理学方法,其基于既往临床研究数据,建立药效学模型和统计学模型,并引入协变量来预测药物疗效。MBMA可以
交直流高压分压器是电力系统和电气设备生产企业及法定检定机构常用的高压测试装置。本文对单级300kV高压分压器的原理、结构、组成和分类等方面进行了较为详细的介绍,为各地
合规经营是企业履行社会责任的重要内容,'一带一路'倡议提出后,将'依法治企'的管理理念发扬到海外市场,成为企业生存和发展的必然选择。本文以坦桑尼亚市场
一、固碱生产现状我国现有氯碱生产厂200余个,烧碱年产量近年来达300万吨。其中固碱产量约28万吨,占烧碱总产量的9.3%。目前国内生产的固碱按产品种类分有水银固碱,离子膜固碱