基于词向量和多特征语义距离的文本聚类算法

来源 :重庆科技学院学报:自然科学版 | 被引量 : 0次 | 上传用户:pgzwoaini1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本聚类算法中存在语义相似度计算向量维度高、忽视特征词词频、位置、词距和语义缺失等问题,提出了一种基于词向量和多特征语义距离的文本聚类算法(M-W2-KS)。首先使用Word2Vec训练语料库中的所有特征词,以向量形式进行表征;然后综合考虑特征词的词频、位置、词距信息以及特征词间的欧式距离,计算文本间的语义相似度,并将其应用到K-means算法中,实现文本的聚类。实验结果表明,运用M-W2-KS算法,可以有效提升聚类效果,使聚类结果更加准确。
其他文献
介绍了虚拟人的运动控制方法,提出了虚拟人运动控制需要解决的问题。
根据钻井岩心资料,采用岩心观察和地球化学分析等方法,研究了中扬子地区水井沱组页岩岩相、地化特征、孔隙结构和含气量等特征。研究结果表明:水井沱组可以划分为泥页岩、白
针对渝东南地区页岩气井页岩层段井壁失稳的钻井工程技术难题,研究有机胺复配甲基葡萄糖甙的新型强抑制钻井液。一方面利用了有机胺对泥岩高效抑制性能,另一方面应用了甲基葡萄
结合英语写作课实践,探讨了有效的课堂讨论对帮助学生形成良好的讨论习惯,理解英语写作规范和要求,增强英语写作实践技能,提高学生英语写作能力的作用。