【摘 要】
:
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个
【机 构】
:
东北大学软件中心,辽宁沈阳110819;大连东软信息学院网络安全与计算技术重点实验室,辽宁大连116023
论文部分内容阅读
针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构.
其他文献
为使转播机能稳定的工作,避免因电源电压的波动造成的不良影响,我们用614A型交流电子稳压器稳压后,供给转播机用电。为简化操作和实现遥控开机及自动关机,我们采用图一的电
相比起7月天气的燥热,千岛湖板块的别墅排屋销售却像一潭清冷的湖水。本期板块内在售楼盘最新动态几乎没有变化,成交量少得可怜。黄龙世纪广场集
Compared to the hot weath
初见赵谦的人,都可能因其身材普通、颜面黯黑、敦厚老实而不予以注意。可是知其底细的人会告诉你:他有过好几项与医学似乎完全搭不上界的国家专利。譬如,玉米保鲜技术、油田
史上最长的国庆假期已经结束,股市又要走向何方?从估值上看,如果不包括银行股,目前A股市净率约为3.5倍,以今年半年报业绩乘2,A股市盈率超过35倍。如果明年业绩改善。ROE提高到16%,市盈率会降到22倍。如果经济复苏后,上市公司经营平稳,16%的ROE水平可以维持,考虑到再融资和利润留存导致的净利润增加,A股每年的收益约为18%。如果要想超越这个收益,只能期待两件事:一是估值上升。由于上市公司可
目的分析近年来田东县流行性腮腺炎流行病学特征,为制定防控措施提供科学依据。方法对田东县2010-2014年流行性腮腺炎发病情况进行描述性流行病学分析。结果田东县2010-2014
在市政道路施工建设过程中,应该着重优化管道施工质量,不断提升管道施工的整体安全效益.市政道路管道施工是一项系统且复杂的综合性工程,在市政道路管道施工过程中,应该结合
腿抽筋,学名称肌肉痉挛,是一种肌肉自发的强直性收缩。发生在小腿和脚趾的肌肉痉挛最常见,发作时疼痛难忍,尤其是半夜抽筋时往往把人痛醒,有好长时间不能止痛,且影响睡眠。近
对于后期的市场变化与投资品种,我们认为:第一,传统型行业或有交易性投资机会;第二战略上我们看好新型产业与稳定增长的消费类行业;第三,A股市场的震荡可能是常态。
For the
陈白尘同志去了!在炎夏的5月28日凌晨。虽然他以86岁高龄离去,但却是文坛的极大损失!简直令人难以置信。一位永远朝气蓬勃、富有乐观精神的人,怎么会离我们而去呢?然而当日
小学阶段的语文学习对于学生具有非常重要的作用,在这一阶段对其进行教学上的引导能够启迪学生思维,对学生今后的发展十分有利.其中语文阅读在学生的语文学习当中的重要性自