基于信息熵与动态聚类的文本特征选择方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wc836952
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。
其他文献
随着经济全球化的不断深入,作为经济全球化重要组成部分的金融全球化、特别是国际货币合作,成为世界经济和国际金融领域研究探讨的热点问题。东亚各经济体加入金融全球化进程是
随着经济的不断发展,银行需要规避限制、打破传统进行金融创新,而日益富庶的普通居民在投资意识更加强烈、通胀预期较高同时又迫切需要加强自身风险抵御能力的背景下,已经不满足
【摘 要】:在数学新课程的实施过程中,要求教师不再是单一的数学知识传授者,而是学生学习的组织者、引导者、合作者;不再只是习题“研究者”和考试“指导者”,而是拥有先进教育理念、懂得现代教育技术、善于学习、善于合作的探究者。  【关键词】:教师角色 学生学习 数学课程 数学教研  中图分类号:G423.07文献标识码:A文章编号:1003-8809(2010)05-0031-01    一、作为学生学
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
在公司财务领域的研究中,公司对流动性资产的管理一直是学者们关注的重要主题。公司财务理论把现金视作公司流动性最高的资产,现金持有量一方面受到公司外部市场环境的影响,另一
本研究的目的在于探讨国内散客旅游预订宾馆客房对于在线旅游公司的选择行为。1999年兴起的全球互联网投资高潮催生了中国第一批旅游网站,华夏旅游网,意高旅游网,携程旅行网,Et-c
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
存款保险制度是指存款类金融机构按照所吸收存款的一定比例,向特定机构缴纳一定保险金,当其发生支付危机时,由存款保险机构通过资金援助、赔偿保险金等方式来保障其清偿能力的一