论文部分内容阅读
随着信息技术的发展,网购平台中涌现出海量的在线评论,其中蕴含着丰富的产品信息,消费者如何在海量的文本中快速查阅到自身感兴趣的信息成为一个棘手的问题。基于文本的聚类方法是缓解该问题的重要途径,具有广阔的应用前景。电子商务环境下的在线评论具有质量参差不齐、短文本特征稀疏、描述信息能力较弱等特点,这造成文本的主题模糊和内容混乱,制约了在线评论的应用发展。而文本聚类可以揭示文本内容的一致性,从而发现同一类别中所包含的共同信息,有助于在线评论的重新组织和二次应用。为此,本文的重点研究内容为在线评论的聚类分析和评论的推荐方法,旨在找出在线评论短文本中最合适的聚类模型,同时通过选取重要评论和富有情感倾向的评论辅助消费者更有效的获取信息。本文的主要研究内容如下:1.针对传统向量空间模型忽略深层次语义信息的问题,提出使用LDA(Latent Dirichlet Allocation)主题模型进行在线评论的向量化表示,并探究在.LDA模型下最合适的短文本聚类方法。实验结果表明,通过LDA模型能准确的捕获评论中主题信息,使得聚类结果更加合理。并且在各个聚类算法中,基于图分割的谱聚类算法综合表现最好。2.为提供给消费者重要程度更高的评论,本文引入复杂网络进行评论的重要度计算。在LDA算法的基础上,以每条评论为节点、评论间的相似度为边的权值构建无向复杂网络。以谱聚类结果中的类别信息进行社区划分,并通过度中心值计算评论的重要程度。由于每个社区中包含不同主题信息,可以通过选取社区中度较大的评论作为重要评论形成新的评论集进行评论推荐。实验结果表明,该方法所展现的评论主题信息更明显,区分度更大,可以帮助消费者更快的找到感兴趣评论内容。3.考虑消费者在浏览在线评论中会重点关注已购买用户的情感倾向,本文使用有监督的机器算法进行情感分类,同时推荐正负情感倾向的评论。通过引入多特征融合和集成学习的方法对文本进行情感计算,并结合谱聚类后的类别信息进行评论内容的再组织。实验结果表明,本文所提出的文本情感分类算法效果超越了经典支持向量机算法和其它无监督类算法10%以上,且形成新的评论集更加丰富多彩。