舆情分析中语料库降维

来源 :2008年中国信息技术与应用学术论坛 | 被引量 : 0次 | 上传用户:jgxyjg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
要对语料库中的海量文章的主题进行识别和归类,要占用大量的空间资源和时间。为了节省空间资源和时间资源,提高主题识别和归类的效率和准确性,有必要对语料库中的数据进行降维处理,并转换成合乎SVM的数据格式。每篇文章中都含有大量的停止词和无关紧要的高频词,它们与主题无关,却占用了大量的资源,应该对这类词进行处理,提高主题识别和归类的效率和准确性。通过对这两类词语的处理,大大降低了语料库所占用的空间,并且提高了主题识别和归类的速率。
其他文献
图形渐变技术在虚拟现实、工业模拟、科学计算可视化、动画生成等领域有着广泛的应用,具有十分重要的意义。而顶点对应技术作为图形渐变技术的基础,近年来受到越来越多的研究者
本文主要结合国内常用的外墙保温技术介绍,对XPS挤塑板在外墙保温施工中的施工技术做了阐述。
体内血栓形成测定信息的计算机管理是利用ASP与网页数据库编写的计算机管理系统,它能将实验测定的数据实现在线录入、查询、分析和打印,并由实验结果写文章,同时可以查询一些血
网络信息时代的到来,给企业营销模式带来了巨大的冲击,彻底改变了我们对传统企业营销所持有的某些旧观念和旧模式,无论是在生产、营销、管理等各方面都受到严峻的挑战,同时也带来
20 0 0年 11月 2日 ,我校 99级检验专业学生在作粪检实验时 ,发现缩小膜壳绦虫人体感染者一例 ,现报告如下。1 病例资料该受感染者系 1999年考入我校检验专业学生 ,男 ,2 0
本文主要实现的是对著名的模式匹配算法--KMP算法的改进与创新,是根据KMP算法的基本定理,提出效率更高的新算法。本算法的特点是:给出任意的两个字符串,一个作为主串,一个作为子串
目的:比较两种营养支持方式在胃肠道肿瘤患者术后的疗效。方法:回顾性分析2009年4月至2012年11月在我院治疗的胃肠道肿瘤患者80例的临床资料,按数字随机分为两组,观察组(40例
本文提出了基于LPC2366在水情测报上适配器的设计与实现,详细叙述了通过各种传感器的采集信号来实时地处理水情,给出了传感器的采集电路模块、电源转换模块、MCU模块、通信模块
会议
层次型移动IPv6(HMIPv6)在引入了域的概念及移动锚点(MAP)后,成功减少了移动节点与外部网络的信令交互及切换中断的时间。当移动节点在同-MAP域内不同接入路由器(AR)间切换以
会议