论文部分内容阅读
随着Web2.0的出现,消费者用以表达自身观点的途径也发生了变化。他们开始在商家的网站上发表对商品的评论,并且通过这些评论来分享各自的经验。不同于产品的描述信息,这些评论的撰写完全基于用户自己的意愿观点,并且能够对其他消费者的购买过程产生影响。这种影响可以从销量情况或者产品价格等这些易于测量的经济变量观察得到。也正是由于网络购物行为的持续发展,使得评论挖掘受到了很大的关注。本文中,以书本评论作为研究对象,重点关注于评论中情感信息的挖掘,并探讨将这种信息用于产品销量预测的方法。此外,前期销量作为另一个能够指示产品未来销售情况的因素,它反映了市场的趋势与影响力,也因此在预测中有着重要的作用。我们工作的重要性能够在产品定价、市场营销等诸多方面得到体现。总体来说,本文的工作主要体现在以下三个方面。(1)针对评论中情感信息的挖掘,本文首先构造了情感词词典,然后采用基于词典和TF-IDF的方法对产品的评论进行情感分析,最后通过将情感因素融合到自回归模型中,建立了新的预测模型——情感感知自回归模型(Autoregressive Emotion-Sensitive model, ARES)。实验结果表明,融入了情感信息的模型具有更好的预测性能。(2)然而,由于自然语言在情感表达方面的复杂性,观点信息通常体现在多个方面,因此基于TF-IDF的方法并不能捕捉评论中情感信息的全貌。这里,我们提出了潜在情感语言模型(Latent Sentiment Language Model, LSD来解决这个问题,该模型由捕获评论中显式情感信息的情感-语言模型(sentiment-language)以及捕获其中隐式情感信息的情感-LDA模型(sentiment-LDA)构成。结合前期销量的影响,最终生成了用于预测的情感自回归模型(Sentiment Autoregressive Model, SAR)。实验结果验证了SAR的有效性以及情感信息的预测能力。(3)此外,考虑到评论质量对消费者情感的影响,我们通过考察评论长度及其修饰词个数两个特征,对SAR模型进行改进,并生成SQAR模型,并通过实验证明了评论质量在最终销量预测中的作用。