论文部分内容阅读
在大数据时代的背景下,文本数据每天呈现爆发式增长趋势,对于构建一套能够高效地提取文本价值信息的方法体系这一需求突显出来。本文试图将文本挖掘技术应用于笔记本电脑销售领域,通过对用户关于笔记本电脑评论信息的挖掘,以便发现用户在选购不同品牌的笔记本电脑时的主要关注热点。本文的研究主要分为三大部分来进行,第一部分是获取数据与数据预处理,第二部分是基于核心算法的实证分析,第三部分是对本文研究的总结与展望。在数据获取与数据预处理部分中,首先探讨与介绍了目前比较常用的网络爬虫技术,主要包括通用网络爬虫、主题网络爬虫以及增量式网络爬虫等。通过采用Python爬虫技术将京东商城中与笔记本电脑相关的评论爬取下来,依次完成文本数据清洗、文本分词、去停用词、高频词统计、文本空间向量表示等一系列文本预处理相关工作,这为后续模型实证分析工作做了充足的准备。在文本数据的实证分析部分中,首先对用户评论进行了描述性统计分析,在此基础上,通过构建LDA主题模型对华为与苹果两大笔记本电脑品牌的用户评论进行了主题提取。LDA主题提取结果表明,对于华为用户评论,抽取出的五大主题分别为硬件配置、物流、客服、外观颜值以及笔记本电脑的综合性能。其中,华为用户关于商城物流与笔记本电脑硬件配置方面的评论数最多,即对这两大主题的关注度比较高,相关评论占比分别为36.19%、31.82%;对于苹果用户评论,抽出的五大主题分别为系统、客服、硬件配置、物流以及外观颜值。其中,涉及到系统这一主题的用户评论数最多,评论占比高达36.88%。在完成主题提取的基础上,本文通过构建高斯混合模型,分别对华为与苹果用户关于电脑硬件配置主题下的评论集合进行聚类分析。结果表明,对于华为用户,在电脑硬件配置方面评论涉及的热点主要包括电脑显示屏、机身外壳、鼠标键盘、电池等。其中,用户对于华为笔记本显示屏设计方面的关注度是最高的,相关评论占比达到了43.46%;对于苹果用户,关于电脑硬件配置主题下的评论主要涉及显示屏、鼠标键盘、电池以及及声卡音质等方面,其中,关于笔记本显示屏方面的评价最多,该类别下的评论数目占比达到了的39.49%。最后,本文对研究工作成果进行了总结与展望,并为笔记本电脑生产商、京东商城以及潜在的消费者提出了一些可参考的建议。