一种基于频繁词集的文本分类算法

来源 :2012年第三届中国计算机学会服务计算学术会议 | 被引量 : 0次 | 上传用户:hecheng555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  提出了一种基于频繁词集的文本分类算法,对频繁词集的选取引入了一个新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。文本的特征空间由频繁词集和原始单词组成,通过测试不同数量的单词特征和频繁词集特征的组合,检验了混合特征空间的最优组合方案。在Reuters-21578和WebKB数据集上,训练SVM进行文本分类,并分析了特征组合策略和相似度权重计算的效果。结果表明,我们的特征组合策略和权重计算方法可以有效提高SVM的文本分类效果。
其他文献
2006年7月19日上午,原本是孩子们快乐的暑假时间,可是在河南省光山县白雀中学的校园里,突然涌出了许多个头高高低低的孩子,他们手拉着手,一字排开,每个孩子脸上都挂着悲戚的
(6+1)数字型彩票在我国发行以来,由于它的号码资源处处可见,和生日号码、电话号码、传呼号码等的表现形式相互关联,加之奖池基金累积较高,所以深受广大彩民朋友的喜爱和欢迎
期刊
  异构数据查询是数据空间必须提供的一种重要的数据服务。本文介绍一种基于基本信息单元的查询机制。考虑数据空间中异构数据内部的相关性和用户活动相关性,抽取相关的数据
由中华医学会放射医学防护学会组织,卫生部工业卫生实验所筹备的国际放射防护学术讨论会(International Symposium on Radiological Protection,ISRP)于1989年11月20日在京
2006年1月13日,在韩国举行的第十届三星杯世界围棋公开赛三番棋决赛决胜局中,罗洗河执黑以5目半的优势战胜“世界围棋第一人”李昌镐,以2比1的总比分摘得个人职业生涯第一个
[目的]评价计算机辅助Taylor支架(Taylor spatial frame,TSF)治疗胫腓骨骨折的临床效果.[方法]回顾性分析2018年2月~2019年3月采用外固定架治疗的胫腓骨骨折患者176例,依据医
当奥菲士拨动金琴的时候,猛兽俯首,树木和顽石起舞。这意味着,声音能使残酷的心变得温顺善良。因一时冲动而锒铛入狱的林辉在精神陷入迷茫时,幸运地发现,原来在他的身边一直
[目的]比较MasonⅢ型桡骨头骨折桌面拼接固定与假体置换的临床疗效.[方法]回顾性分析2005年1月~2017年1月手术治疗的27例MasonⅢ型桡骨头骨折患者的临床资料,其中,11例行桡骨
  在现代商业高速发展环境下,客户需求的频繁变更以及业务过程的专业化均给企业流程建模带来了巨大的挑战。传统基于流程挖掘或流程检索的方式在一定程度上改进了建模的方
会议
姐妹联手供小妹妹上学朱志敏的家乡贵州安龙县是全国重点贫困地县。她的父亲朱专刚和妻子靠耕种两亩薄地维持生活。她和大姐朱志春、二姐朱志苹三姐妹从小就懂得好好学习才有