基于日志分析的搜索引擎用户满意度评估系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:lelerui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网发展至今,已成为人们获取信息资源的重要方式。各类搜索引擎的出现掀动了人们检索热潮,在当前这个用户中心时代,用户满意度评估被视为搜索引擎质量评判的重要标准之一。用户满意度评估数据可以直观地反映用户对于搜索引擎技术发展方向的倾向性,为其商业运营的技术把控提供有力的参考数据。因此有效地评估用户的满意度及挖掘低质量搜索结果(Bad Case),是搜索引擎算法改进、业务把控、及日常维护的重要保障。为满足此评估需求,本文针对目前搜索引擎满意度评估缺乏对用户真实体验研究的现状,从真实用户体验的角度出发,合理分析当前搜索引擎的交互方式和用户日志中的行为数据特征,构建一个高效且流程自动化的用户满意度评估系统(User Satisfaction Assessment System,USAS)。本文的主要工作如下:(1)提出了用户满意度评估系统的总体设计方案和实现路线,明确了系统目标。(2)分析了搜索引擎中海量日志的处理需求,提出了基于Hadoop的分布式抓取策略、基于异常词库和色情词库的数据清洗策略、基于日志复现的人工评估策略,解决了大数据抓取和过滤问题,减少了人工评估与真实用户体验的感知误差,提升了系统效率。(3)分析了用户行为的共性和特性,提出了基于搜索日志的行为特征提取策略,增强了对用户行为的描述能力,解决了以往研究中提取维度单一和主观性评判问题。(4)提出了利用神经网络建立用户满意度评估模型和Bad Case挖掘模型,解决了用户浏览行为与用户满意度之间的非线性关联问题,提升了用户满意度评估的准确性和可靠性。(5)在上述研究的基础上,实现了基于日志分析的搜索引擎用户满意度评估系统USAS,并基于测试日志数据集进行了全面的测试分析,实验结果表明,本文解决方案是有效的,能合理评估搜索用户日级满意度得分并挖掘出Bad Case案列,为搜索引擎的优化提供可靠的依据。
其他文献
(一)1993年5月2日,海航第一个航班投入海口北京航线的运营.从那时起,海航人开始梦想成为一流的航空运输企业品牌.
利用多波束天线转换到终端RSSI最强的特性,通过AP可信度来优选AP等策略实现对无线终端的定位。利用AWE软件进行了仿真,用MATLAB对仿真结果进行分析,仿真结果和Radar定位算法
随着煤炭行业整体面貌发生的巨大变化,以及煤炭市场竞争的愈加激烈,煤炭企业为了取得更强的竞争力和保持合理的利润,必须秉承降本增效的原则,深入挖潜,力争适时以最低的成本取得价廉质优的煤炭资源,从而让自身屹立于激烈的市场竞争之中。基于行业激烈的竞争以及顾客需求变化,企业应重新审视采购业务流程并科学设定以提高自我竞争优势。基于此,本文以A公司为例,结合流程再造的方法与原理,研究了该公司再造采购业务流程的重
三权分置是党中央、国务院在原有"集体的土地所有权+承包农户的土地承包经营权"的农地权利构架基础上,将土地经营权从土地承包经营权中分离出来的重大决策。《中华人民共和国
蛋白尿是慢性肾小球肾炎(CGN)的常见临床表现,其发生机制非常复杂,诸多因素可能参与其中。但蛋白尿对肾小管间质损伤的作用及其在慢性肾小球疾病时肾小球进行性损伤中的作用正日
沈从文的文学创作具有浓厚的民俗学意蕴。沈从文文学创作的民俗学意蕴根植于湘西深厚的民俗文化之中,彰显于其文学作品对于民俗风情的描写。沈从文文学作品中的民俗学意蕴不
为明确导致船员疲劳最主要的因素以及进一步评估中国船员的疲劳状况,给相关海事部门和航运企业制订疲劳法规和管理政策提供可行性证据和支持,基于多维度疲劳结构(MFI-20)及NA
摘 要:初中生经历了小学阶段的数学学习,积累了一些数学学习的方法,具备了继续开展数学学习的基础,但是我们应当清醒地认识到,他们的生活经验和数学基础还比较薄弱,数学方法论和数学观仍旧很不成熟,建立在这样的基础上的数学教学,节奏应放缓一些,要给学生更多的时间和机会来体验数学、感悟数学。数学课程标准中也明确指出:数学教学不仅要考虑数学自身的基本特点,更应该遵循学生学习的心理特征和规律,要从学生的实际出发