基于LDA主题模型的在线评论聚类分析与推荐

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:sunxunjun2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网购平台中涌现出海量的在线评论,其中蕴含着丰富的产品信息,消费者如何在海量的文本中快速查阅到自身感兴趣的信息成为一个棘手的问题。基于文本的聚类方法是缓解该问题的重要途径,具有广阔的应用前景。电子商务环境下的在线评论具有质量参差不齐、短文本特征稀疏、描述信息能力较弱等特点,这造成文本的主题模糊和内容混乱,制约了在线评论的应用发展。而文本聚类可以揭示文本内容的一致性,从而发现同一类别中所包含的共同信息,有助于在线评论的重新组织和二次应用。为此,本文的重点研究内容为在线评论的聚类分析和评论的推荐方法,旨在找出在线评论短文本中最合适的聚类模型,同时通过选取重要评论和富有情感倾向的评论辅助消费者更有效的获取信息。本文的主要研究内容如下:1.针对传统向量空间模型忽略深层次语义信息的问题,提出使用LDA(Latent Dirichlet Allocation)主题模型进行在线评论的向量化表示,并探究在.LDA模型下最合适的短文本聚类方法。实验结果表明,通过LDA模型能准确的捕获评论中主题信息,使得聚类结果更加合理。并且在各个聚类算法中,基于图分割的谱聚类算法综合表现最好。2.为提供给消费者重要程度更高的评论,本文引入复杂网络进行评论的重要度计算。在LDA算法的基础上,以每条评论为节点、评论间的相似度为边的权值构建无向复杂网络。以谱聚类结果中的类别信息进行社区划分,并通过度中心值计算评论的重要程度。由于每个社区中包含不同主题信息,可以通过选取社区中度较大的评论作为重要评论形成新的评论集进行评论推荐。实验结果表明,该方法所展现的评论主题信息更明显,区分度更大,可以帮助消费者更快的找到感兴趣评论内容。3.考虑消费者在浏览在线评论中会重点关注已购买用户的情感倾向,本文使用有监督的机器算法进行情感分类,同时推荐正负情感倾向的评论。通过引入多特征融合和集成学习的方法对文本进行情感计算,并结合谱聚类后的类别信息进行评论内容的再组织。实验结果表明,本文所提出的文本情感分类算法效果超越了经典支持向量机算法和其它无监督类算法10%以上,且形成新的评论集更加丰富多彩。
其他文献
相比于机器人技术在其他产业的广泛应用,复合材料产业因传统方法主导而产生的矛盾,正随着机器人在各种工序中的出现而逐渐消失。
<正> 本镗孔机主要由镗排和动力头两部分组成,其中动力头部分系在学习兄弟厂的基础上加以改进制成的,而镗排部分则是我厂自己设计制造的。由于原有镗孔机的镗排在“安源”号
随着2008北京奥运会的临近,本文对我国居民体育消费水平现状的研究,从理论上分析影响体育消费行为的因素,阐述居民体育消费水平的特点,以提高我国居民体育消费水平,为促进体
产生于民族危难和社会危机特定历史背景下的中国民族主义,虽然自甲午海战以来,在中国追求民族解放的不同阶段追求的目标不同,但受其所处时代的国际背景、国内背景和文化背景
在我国当今物流产业大军中,有一支由第一方物流转换为第三方物流的新生力量。但是这一新生力量还存在着诸多问题,造成了该类企业利润低,缺少竞争力。本文通过探讨第一方物流
<正> 清训诂学家郝懿行《尔雅义疏》(上海古籍出版社83年6月影印本。以下简称《义疏》),虽不象《尔雅义疏·序》作者宋翔凤所说"凌唐跞宋,追秦汉而明周孔,至于旁皇周浃,穷深
南水北调中线工程北京段PCCP输水管采用外防腐涂层与阴极保护技术相结合的防腐措施,属国内首例。本文阐述了长距离、超大口径PCCP输水管实施阴极保护的必要性、方案选择及设
民政部、公安部、全国老龄办等9个部门近期联合印发了《关于加强农村留守老年人关爱服务工作的意见》(以下简称《意见》)。民政部社会工作司副司长黄胜伟表示,日前下发的《意
<正>序19世纪初期,天主教会意识到他们遇到了问题。还必须承认,问题可能还不止一个。不过,在当时首要的是日课问题,即天主教众修士每日进行的八次圣歌吟唱。吟唱内容包括单声
<正>消化性胃溃疡主要发生在胃和十二指肠,是指胃肠黏膜层的局部损坏,与胃酸和胃蛋白酶的消化作用有关。上消化道出血是指包括食管、胃、十二指肠、上段空肠及胆胰屈氏韧带以