面向微博短文本分类的文本向量化方法比较研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。
其他文献
白裤瑶民族生活在广西的西北地区,被世界赞誉为"人类文明的活化石"。白裤瑶属于偌大的瑶族中,布努瑶支系的一个分支,因男子身着白色并印有血手印的裤子而得名。他们勤劳朴实,
文章认为虽然将法治予以中国化已经成为法学家们的自觉意识,但在实际探讨中一些法学家却不自觉地以一些既有的理论范式来裁剪社会事实,而没能够抓住法治建设和中国共产党领导
目的:探讨关节镜下微骨折术治疗膝关节软骨损伤的疗效及预后。方法:收治膝关节软骨损伤患者80例。对照组采用常规关节清理术治疗,微骨折术组则采用关节镜下微骨折术治疗。结
采用毒性试验方法研究3种质量浓度(10.0,5.0和2.5 mg/L)下人工纳米材料多壁碳纳米管(MWCNTs)长时间暴露(28~35 d)对斑马鱼成鱼脑和肝组织中乙酰胆碱酯酶(AchE)、谷胱甘肽过氧