论文部分内容阅读
随着互联网的蓬勃发展,网上购物逐渐成为人们工作生活不可获缺的一部分。人们在进行网上消费之前,会有目的性的参考以往用户评论进行消费决策。正因为这些评论信息可以很大程度上影响消费者的购买意愿,加之在购物平台上人为的添加评论信息难度和成本都不高,部分商家会刻意的雇佣“水军”向自己的产品添加正面的评论,甚至向竞争者的产品添加负面评论。这些人为捏造的评论会误导消费者,破坏正常的网上商业秩序,因而有必要对它们进行识别和剔除,不过这些虚假评论有很强的隐蔽性,人工的方法进行识别效率很低,成本很高,准确率也难以保证。本论文针对上述问题,对互联网虚假评论分析技术进行了调研,对网商平台的虚假评论进行了研究与实验。由于基于机器学习的技术对解决该类型问题有特有的优势,故而本文提出了基于协同训练的两种虚假评论识别方法:一种将评论中所含有的词语与概率上下文无关文法进行协同即CoSpa模型,一种将评论中所含词语用信息熵的形式均分成不同的特征集进行协同即CoFea模型。在虚假评论的标准数据集上展开实验,实验结果证明,本文所提出的方法CoSpa和CoFea均比作为对比的SVM分类器有较优的识别准确率,其中CoSpa-U(90%的识别准确率)在迭代学习趋于稳定后识别准确度比CoSpa-C(85%的识别准确率)略高5%,高于用来对比的SVM分类器(75-80%的识别准确率);CoFea-T(83%的识别准确率)在迭代学习趋于稳定后识别准确度比CoFea-S(80%的识别准确率)略高3%,高于用来对比的SVM分类器(75-80%的识别准确率)。横向对比CoSpa和CoFea两种方法,前者有相对较高的识别准确率,后者有更优秀的运算速度。本文的研究为解决互联网电商在线虚假评论问题提供了前景广阔的思路和方法,将本文的研究成果加以利用可以消除互联网在线虚假评论对网上商业秩序造成的负面影响。