大数据文本信息分类方法研究与实现

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:minloveyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息时代的飞速发展使得计算机在生活、工作中应用日益广泛,Internet中生成、累积的网络交互文本数据量庞大,信息资源数量以指数级增加。海量数据中大部分对研究实际问题意义并不显著,数据规模巨大使传统文本分析处理方法难以达到预期效果。因此,如何从海量、繁杂数据中准确、快速地获取目标数据进行处理、分析,得到价值密度高的数据信息,是当前极具挑战的问题。本课题旨在改进现有文本分类中的特征选择方法,使其能够满足在种类繁多的文本信息更为准确的保存具有类别代表性的特征子集,从而达到在海量冗余数据中准确、全面、高效地分类出目标信息。本文完成的主要工作如下:(1)分析面向大数据文本分类中特征选择要求,重点研究了2?统计(Chisquare,CHI)算法,针对经典CHI算法在选择特征时对低频词具有偏向性,提出了将CHI值和特征在指定类别文档内词频相结合的方法,同时分析特征的类别分布情况对选择特征的影响,通过引入类间集中度、类内离散度的概念,在CHI公式中加入修正因子。(2)为提高文本分类效果,在向量空间模型(Vector Space Model,VSM)的构建上,选择词频-逆文档频率方法(Term frequency–Inverse document frequency,TF-IDF)作为特征权重的计算方法,将特征权重值归一化。(3)选择支持向量机(Support Vector Machine,SVM)算法实现分类器,在训练SVM分类器时利用十折交叉验证法(10-fold Cross Validation)和网格搜索法,完成对惩罚因子C和RBF核函数参数γ的寻优,以获得最优分类性能。将改进CHI方法应用到特征选择模块,对比改进方法对分类结果的影响。利用以上研究成果,设计完成一个面向通信企业相关新闻分类的文本分类系统。本文利用实现的分类系统,选用复旦语料集对经典的IG方法、CHI方法、文献[50]中提出的HBM方法和本文改进的CHI方法设计实验对比。实验证明,改进的CHI方法的查准率和F1值优于其他对比算法。将本文研究成果应用在对通信企业相关政策法规类新闻的分类系统中,从而证明了本文改进方法的正确性、有效性以及实用价值。
其他文献
哈尔滨工业大学建筑科技大厦建筑总平面为H形,建筑面积为64567m2。地下2层,地上29层,局部裙房为5层,大底盘无缝设计,框支剪力墙结构。基础采用大直径人工挖孔扩底灌注桩基础,
为研究筋材与砂土接触面剪切特性,在改造的直剪仪上进行了筋材与砂土界面的直剪试验。结果表明:筋土接触面摩擦关系曲线符合摩尔-库仑强度准则。在本次试验的含水率范围内,筋土
硅谷的成功并不能颠覆商业中的基础规则,你的赢利来自于忠诚的客户,他们与你做生意更多是因为钱以外的因素。而客户的忠诚是雇员忠诚的自然而然的结果,雇员忠诚才能创造伟大的产
<正> 进餐厅 不要东张西望自己找位子,应在等候座位区等候服务人员来引导入座。 入座 男士应为女士拉开椅子,让女士由左后手边进入;稍候男士将椅子放正,女士才可从容坐下。男
期刊
介绍了钢筋混凝土梁在钢筋锈蚀之后,其塑性铰的转动能力退化的情况。依据钢筋发生锈蚀后其受力性能的变化规律和钢筋混凝土结构的基本原理,推导出锈蚀率超过某一范围后,梁上
本文以中国科学院计算机网络信息中心超级计算中心(以下简称超级计算中心)客户服务工作为研究对象,运用K-means算法对客户进行细分,进而对每类客户群提出相应的差异化服务策
为在"一带一路"沿线国家顺利推进重大工程建设,中资建设企业必须及时澄清负面舆论,塑造良好的企业形象和工程形象,保障其合法权益,树立中国负责任的大国形象,有力推进"一带一
某高层住宅楼置于天然地基上,在主体结构施工完毕后,发现建筑物出现整体倾斜,倾斜率达7.5‰。通过对该楼沉降观测资料的整理分析和相关计算,对勘察报告、建筑设计、地基承载