论文部分内容阅读
随着互联网的发展,电子商务逐渐走进越来越多人的日常生活。如何从为数众多的产品中,选择最符合自身需求的产品,是用户购买决策的重要环节之一。互联网上产品的图片、参数、价格历史等客观数据,以及诸如用户评论、用户评分等海量的用户生成内容,能够帮助用户充分了解并仔细比较各种产品。 产品搜索是电子商务的重要入口,也是互联网搜索的主要类型之一。好的产品搜索引擎能够充分利用海量数据,特别是用户评论这样的口碑信息,考虑多方面因素来综合衡量产品的价值,帮助用户快速定位目标产品。 产品搜索与传统IR领域的网页搜索相比具有新的特点,主要表现在:搜索的应用类型不同;搜索的内容来源不同;搜索的结果粒度不同;搜索的用户需求不同。如何综合使用客观的产品数据和主观的用户生成内容,设计符合用户需求的搜索排序模型,是产品搜索面临的挑战。 目前关于产品搜索模型的相关研究有:基于文档空间向量模型的改进模型,基于元数据的搜索模型,基于情感分析结果和效用理论的特征模型。现有模型通常只是基于销量、价格、评分、评论数或者用户评论情感分析结果等单一或少量的因素对产品进行排序,不能较好地满足产品搜索的用户需求。 考虑到用户生成内容在电子商务中的作用,以及现有产品搜索模型的缺点,本文设计并实现了一个结合客观的产品数据和主观用户生成内容的,基于产品多个目标综合决策的产品搜索系统。本文的新思路在于: ●基于产品多个目标综合决策的产品搜索模型:以多目标决策的效用理论、计量经济学的效用最大化原则、商品特征模型和离散选择模型为理论基础,提出了综合考虑产品的价格、功能、性能、外观、用户评分等多种目标因素的排序模型; ●综合使用客观和主观数据:从产品参数、产品介绍等客观产品数据,和用户评分、产品评论等主观的用户生成内容中选取搜索模型特征,对中文用户评论的文本进行特征粒度的情感分析从中挖掘出消费者对于产品各个细节的主观评价,训练MNL模型预测消费者剩余作为搜索模型排序的依据; ●通过对随机选取的搜索用户进行双盲实验的结果表明,该产品搜索模型的搜索效果比基准算法有显著的提高; ●设计并实现了数码类的产品搜索系统:动态获取数码类的手机、笔记本电脑、数码相机的数据,构建并更新维护相关的产品数据库、倒排索引和情感分析库,实现了数码类的产品搜索系统原型,能够较好地对排序结果进行解释和可视化.