舆情分析中语料库降维

来源 :2008年中国信息技术与应用学术论坛 | 被引量 : 0次 | 上传用户：jgxyjg

【摘要】

：

要对语料库中的海量文章的主题进行识别和归类，要占用大量的空间资源和时间。为了节省空间资源和时间资源，提高主题识别和归类的效率和准确性，有必要对语料库中的数据进行降维处

【作者】

：

梁飞吕洪波姚锦峰

【机构】

：

四川大学计算机学院成都 610065

【出处】

：

2008年中国信息技术与应用学术论坛

【发表日期】

：

2008年期

【关键词】

：

分析语料库主题识别空间资源准确性降维处理效率文章数据格式时间资源类词高频词转换止词速率库所海量词语 SVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

要对语料库中的海量文章的主题进行识别和归类，要占用大量的空间资源和时间。为了节省空间资源和时间资源，提高主题识别和归类的效率和准确性，有必要对语料库中的数据进行降维处理，并转换成合乎SVM的数据格式。每篇文章中都含有大量的停止词和无关紧要的高频词，它们与主题无关，却占用了大量的资源，应该对这类词进行处理，提高主题识别和归类的效率和准确性。通过对这两类词语的处理，大大降低了语料库所占用的空间，并且提高了主题识别和归类的速率。

其他文献

二维图形渐变顶点对应算法综述

图形渐变技术在虚拟现实、工业模拟、科学计算可视化、动画生成等领域有着广泛的应用，具有十分重要的意义。而顶点对应技术作为图形渐变技术的基础，近年来受到越来越多的研究者

会议

二维图形渐变顶点对应技术对应算法科学计算可视化研究者虚拟现实发展方向动画生成优缺点模拟基础工业分析

浅谈建筑外墙保温技术的应用

本文主要结合国内常用的外墙保温技术介绍，对XPS挤塑板在外墙保温施工中的施工技术做了阐述。

期刊

XPS挤塑板外墙保温建筑节能

体内血栓形成测定信息的计算机管理

体内血栓形成测定信息的计算机管理是利用ASP与网页数据库编写的计算机管理系统，它能将实验测定的数据实现在线录入、查询、分析和打印，并由实验结果写文章，同时可以查询一些血

会议

体内血栓形成实验测定信息计算机管理系统实验结果网页数据库数据实现查询便利条件写文章知识在线录入分析打印编写ASP

基于电子商务环境下企业网络营销的探讨

网络信息时代的到来，给企业营销模式带来了巨大的冲击，彻底改变了我们对传统企业营销所持有的某些旧观念和旧模式，无论是在生产、营销、管理等各方面都受到严峻的挑战，同时也带来

期刊

网络营销电子商务

我国1999年农药登记与供应情况的分析

期刊

农药登记混配农药混剂农药中毒农药品种杂环类数量比有机硫进口农药杀鼠剂

缩小膜壳绦虫人体感染一例

20 0 0年 11月 2日 ,我校 99级检验专业学生在作粪检实验时 ,发现缩小膜壳绦虫人体感染者一例 ,现报告如下。1　病例资料该受感染者系 1999年考入我校检验专业学生 ,男 ,2 0

期刊

缩小膜壳绦虫饱和盐水浮聚法胚膜六钩蚴检验专业学生偶然寄生圆形虫蚤类直接涂片法饮食卫生

模式匹配算法——KMP算法的改进

本文主要实现的是对著名的模式匹配算法--KMP算法的改进与创新，是根据KMP算法的基本定理，提出效率更高的新算法。本算法的特点是：给出任意的两个字符串，一个作为主串，一个作为子串

会议

模式匹配算法KMP算法字符匹配改进与创新效率基本定理字符串新算法特点

两种营养支持方式在胃肠道肿瘤患者术后的疗效对比研究

目的:比较两种营养支持方式在胃肠道肿瘤患者术后的疗效。方法:回顾性分析2009年4月至2012年11月在我院治疗的胃肠道肿瘤患者80例的临床资料,按数字随机分为两组,观察组(40例

期刊

肠道肿瘤营养支持方式肠内营养支持淋巴细胞总数前白蛋白肠蠕动恢复疗效对比研究肠功能全胃切除观察组

基于LPC2366的水情测报适配器设计与实现

本文提出了基于LPC2366在水情测报上适配器的设计与实现，详细叙述了通过各种传感器的采集信号来实时地处理水情，给出了传感器的采集电路模块、电源转换模块、MCU模块、通信模块

会议

基于层次型移动IPv6切换问题的改进

层次型移动IPv6(HMIPv6)在引入了域的概念及移动锚点(MAP)后，成功减少了移动节点与外部网络的信令交互及切换中断的时间。当移动节点在同-MAP域内不同接入路由器(AR)间切换以

会议

舆情分析中语料库降维

其他学术论文