【摘 要】
:
群体见解预测通过挖掘网络社区用户的关联性,以及对该用户群体在某事物上的观点的计算,推断出他们中的个体对该事物的态度或看法。这种智能化的运算对在线信息服务、商业定向
【出 处】
:
中国科学院研究生院 中国科学院大学
论文部分内容阅读
群体见解预测通过挖掘网络社区用户的关联性,以及对该用户群体在某事物上的观点的计算,推断出他们中的个体对该事物的态度或看法。这种智能化的运算对在线信息服务、商业定向广告和产品口碑分析等质量的提升都有着重要理论指导意义和应用价值。
由于协同过滤理论方法能够在计算用户历史评分的相似性基础上产生个性化的预测结果,它已成为解决群体见解预测问题的主要手段。研究表明,这种方法可行性的基本假设是信息来源可靠,而实际系统环境中往往存在人为的噪声数据。针对在提高预测准确性同时也能有效克服噪声数据影响的这一难题,本文探索利用用户信任关系来建立一种新的群体见解预测理论方法。
论文工作的重要结论是建立在对国内外著名评论网站近30万用户数据的定量分析之上。实验观察和分析结果揭示了信任网络中节点的距离与用户见解的相似性负相关、信任度与相似性正相关的统计规律。根据此发现,我们提出了两种基于信任的群体见解预测算法,以比较不同的信任度量策略对预测准确性的影响。实验结果证明了信任度量策略与预测结果的无关性。为了进一步提升预测准确性,我们构建了拟合信任与相似性的贝叶斯模型,并提出一个基于二阶马尔可夫随机走动模型的预测算法,以解决相似性度量中的数据稀疏问题。通过实验,我们验证了新方法的预测准确性和覆盖率优于典型协同过滤算法。最后,为分析基于信任的预测算法过滤噪声数据的能力,我们建立了一个鲁棒性分析框架。采用此框架的仿真结果揭示了影响该类算法鲁棒性的关键因素,并证实了诚实用户的反馈能够帮助算法从攻击中自愈。我们还从应用层面给出了改善算法鲁棒性的两项策略。
论文工作的理论成果、预测算法和鲁棒性分析框架,既具备应用价值,也为该领域的后继研究工作提供了基本依据和一种通用的评估方法。
其他文献
稳态强磁场装置是国家十一五重大科技基础设施建设项目,目的是为我国的科学研究提供理想的稳态强磁场极端实验条件和满足多学科实验需求的实验测试系统。中央控制系统是稳态
随着电子商务和人工智能的发展以及社交媒体用户数据的爆炸性增长,从大规模信息流中发现、分离和分析核心论点变得十分必要。论辩挖掘(Argumentation Mining)的主要目标是自动
LTE终端协议栈软件运行时需要处理大量的数据包,协议栈每收到一个新的数据包都要分配相应大小的内存来缓存该数据,待数据成功发送后释放掉该部分空间;同时也要为每一个新的数据
DNS(Domain Name System,域名系统)是Internet上重要的基础设施,承载着域名到IP地址之间的转换,DNS系统的正常运行,是web服务、电子邮件服务、ftp服务等众多互联网应用正常工作的
尽管远程显示技术已经在瘦客户计算和桌面虚拟化等研究和产品中得到了广泛应用,但面对多样的客户机/服务器计算环境,远程显示技术仍然存在诸多问题。首先,远程显示一般用于访问
随着计算机技术和网络通信技术的飞速发展,计算机网络已经遍布全球,并极大地影响着人们的生活和工作,在国家经济和国家安全中也扮演着重要角色。同时,网络安全事件愈来愈多,安全问
快速多极子方法(FMM)可用来加速迭代求解由Laplace方程、Helmholtz方程、Navier方程、Stokes方程、Maxwell方程组等导出的边界积分方程,将矩阵一向量乘积的复杂度由O(N2)降低
声誉机制能较好地缓解Web服务市场中提供者与使用者之间的信息不对称问题。通过对比分布式计算环境下已有的声誉机制与当前Web服务声誉机制后本文发现:目前的Web服务声誉机制
中国生态系统研究网络(CERN)的科研人员通过观测、试验、调查等手段积累了大量的长期生态监测数据。然而,从原始数据的获取,到形成最终入库供今后科学研究分析查阅的历史资料,中
近年来,随着铁路六次大面积提速,动车组和重载列车大量开行,铁路运输安全性问题更加突出。在高速提速常速并存、速密重并举、客货混跑的运输形势下,铁路各专业投入大量的资金,推广