【摘 要】
:
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有
【机 构】
:
中国科学院计算技术研究所,北京,100080
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进。
其他文献
SincecitizensfromtencitiesoftheMainlandofChinaincludingGuangdong ,BeijingandShanghaiarepermittedtotravelinHongKongfreely ,moreandmoretravelersfromthese placesha
在石头凳、水泥板凳和水泥地面上,摆放着许多大大小小的树桩盆景,立、斜、卧、悬各式各样,有的英俊挺拔,有的阿娜多姿,有的卧盘健稳,有的悬走天边,奇巧古怪,令人日不暇接。
既有高层建筑地下增层开挖,不可避免地引起地基应力场改变,导致桩土接触面和桩端土层应力变化,从而降低原基础底板下桩基承载力。由于实际工程情况限制,增层开挖后桩基的承载
朴素贝叶斯算法的主要特征是分类速度快而分类精度较低,算法的目标是在传统贝叶斯文本分类算法的前提下达到令人满意的分类精度,并进一步提高分类速度.算法的技术手段包括在
健康永远排在美丽之前,没有一个方式可以让不健康的人拥有美丽的外表,但有了健康,却会让自己
Health is always ranked in the beauty before, there is no way for unhealt
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域研究工作带来了新挑战,而其中分类算法更是当前的研究热点. Domingos等人在VFDT中利用Hoef
阐述了中国高混凝土面板堆石坝(坝高129 m以上)安全监测布置、监测仪器选型和数量以及监测主要成果,在分析了高混凝土面板堆石坝监测资料的基础上指出筑坝材料的变形特性、坝
编辑同志: 看了《戏剧报》第八期上刊登的华国维同志写的《老贫农给我上了一堂课》这篇文章,感到有所不足,提出一点意见作为补充。华国维同志听了老贫农钟老伯说他在《小保
为研究土的基本性质,验证土的本构关系,监测建筑岩土结构,进行了以下5方面的研究:①土的次弹性本构模型和弹黏塑模型;②一维应变黏性土沉降计算;③一维应变下黏性土非线性蠕
对汶川地震后紫坪铺面板堆石坝台阵余震记录进行了分析,研究实测余震地震动频谱特性等基本特征。选择有代表性的坝址基岩台站记录到的余震地震动作为大坝地震动输入,对紫坪铺