基于文本检索结果的众包评估系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:hua3287226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的持续深入与快速发展,各行业的存储数据量急剧增加,促进了大数据相关技术的蓬勃发展。文本检索作为文本大数据处理和分析研究中不可或缺的一部分,也越来越受到重视并广泛应用于多个领域。然而,在具体应用场景下,可能存在多种不同的文本检索算法。因此,评价不同算法的检索效果以确定采用何种算法,显得尤为重要。相关研究中一般采用自动化和人工两种方式对不同算法得出的检索结果进行评价。其中自动化评价方案不仅难以设计,而且仍依赖于对数据的人工处理。而人工评价的工作量巨大,将消耗研究人员大量精力并可能耽误研究时间。因此,本文研究并实现了一种文本检索结果评估辅助系统,用于将科研人员从繁杂的对比和评价工作中解脱出来。本系统采用众包的方式,将对比不同算法检索结果的任务分派给满足一定要求的大众群体,再综合所有参与者的评分结果给出不同检索算法的对比效果。检索算法的人工评价主要是对比不同算法的结果列表的优劣,一般而言,结果列表的大小是确定的,但是不同的评价方案会带来不同的评价工作量和不同精确度的评价结果,精确度越高则需要的工作量越大。本文设计并实现了三种不同精确度和任务量的可选评价方案,使用者可以根据自己的需求选择具体的方案。三种可选评估方案中,生成评估任务的算法和处理评估得分的方法不同,但整体流程相同,即(1)用户发布评估项目并上传数据源;(2)根据用户选择的评估方案生成评估任务;(3)将评估任务分派给评估人员;(4)处理评估人员的评估数据;(5)获得优胜推荐算法。其中第二步涉及的生成评估任务模块是本文的核心内容。第三步则是体现众包概念的核心。检索算法评估任务中考虑的众包是参与者数量和任务数量均确定的场景,因此,本文在第三步中设计了一种简单任务分配方案,即确保参与者完成任务内容多样化和数量最小化的方案。
其他文献
目的:分析和总结亚临床库欣综合征患者的临床和代谢特征以及激素水平变化,探究SCS患者合并代谢异常的可能风险因素及代谢指标与皮质醇水平的相关性。方法:研究纳入2010年3月至2018年10月在南京大学医学院附属鼓楼医院内分泌科诊治的56例亚临床库欣综合征患者,68例肾上腺腺瘤型临床库欣综合征(CS)和56例与SCS性别、年龄、BMI匹配的肾上腺无功能瘤(NFA)患者。比较临床资料、代谢特征及激素水平
自修复(self-healing)的概念源于生物学中的自修复现象。所有的材料在其使用期间都会不可避免地遭受热损伤、机械损伤或者化学降解,大大降低了材料的使用寿命。受大自然的启发,人们希望引入自修复功能来延长材料的使用寿命。本文以Fe(Ⅲ)-pdca动态配合物为研究对象,通过化学交联的方式将其接入到高分子链中合成了具有自修复功能的高分子材料,并对材料的结构、动态性、力学性质和自修复性质的机理进行了探
书籍是人类进步的阶梯。随着科技的发展,人们读书的方式日益多元。以手机、平板电脑等移动智能终端为载体的移动阅读APP(APP是APPlication的简称,指移动智能设备上的第三方应用程序),以其便携性、多样化、个性化、社交化的特点备受人们青睐,成为当前人们阅读的重要方式。移动阅读APP市场也在经历了萌芽期、启动期后进入了高速发展阶段。随着我国移动阅读APP市场的深入发展,市场竞争愈发激烈,我国移动
改革开放四十多年来,我国的市场经济实现了飞速发展,资本市场趋向成熟。在资源环境约束增强,产业结构转型升级的大背景下,并购作为现代企业进行资源配制的重要方式,对企业发展和价值有重大影响。越来越多的企业通过并购改善资源配制,寻求更高质量的发展,可是一些公司虽然完成了并购,却并没有实现并购目的。上世纪90年代中期,我国上市公司开始引入董事会秘书制度,后来明确其为上市公司高级管理人员。董事会秘书是基于公司
过去10年,乘着在互联网行业快速发展的东风,国内电商市场一片繁荣,各电商企业经历了高速增长的“黄金时代”。但在2016年,国内网络零售市场的增速首次出现低于30%的情况,较低的人口自然增长率等逐步导致流量红利的消失,这个市场也正由“蓝海”转向“红海”,发展精细化与智慧化运营成为电商企业增长的关键。预测工作是电商智慧化运营中的重要一环,准确的预测对将会对企业的生产、营销和物流等决策产生深刻影响。从宏
学位
作为机器学习算法研究中的一个研究热点,深度学习是一种模拟人脑神经元且具有层次式体系结构的机器学习技术。近年来,深度学习技术在诸如语音识别、图片识别、自然语言处理等子领域的应用中取得了突破。在大数据的支持下,深度学习技术在法院智能化领域快速发展,日益彰显出它的重要意义和广阔的应用前景,将深度学习技术和审判实践的各个环节相结合能大大提高人民法院的智能化水平。当前,法院案多人少的问题十分严峻。2016年
在受资源限制的软件质量维护场景下,软件质量维护团队需要使用预测模型来预测不同的模块是否可能出现缺陷,以便更好分配工作量。通常用于预测模块缺陷的模型被称为缺陷预测模型。缺陷预测模型的构建和评估受到多个因素的影响,例如不平衡数据处理、建模技术参数调优、模型评价方法选取等。其中,不平衡数据处理针对缺陷预测数据中广泛存在的不平衡性进行调整以满足建模技术的假设,从而提升模型表现。建模技术参数调优通过选取最优
偷换商家二维码获取财物类案件因行为人的偷换行为既包含秘密性又存在一定欺骗性,导致实务界对该行为应认定为盗窃还是诈骗存在分歧。通过对现有40份裁判文书进行分析,可知裁判意见中多将偷换二维码行为认定为盗窃罪,但在说理部分均未给予充分理由。现有理论中,“盗窃说”因顾客系自愿交付财物,而商家自始自终都未能占有货款,二者都不能成为盗窃行为的受害人而难以成立;“诈骗说”的相关观点错误的混淆了“事实错误”与诈骗
近年来,手势交互的人机交互方式被越来越多的人关注、认可和接受。手势感知技术作为手势交互的核心,也在不断地发展、进步,其中就包括基于视觉模型的手势感知技术,而作为基于视觉模型的LeapMotion设备一经问世,就引起了巨大的轰动,它的出现为人与计算机以及人与环境提供了新的交互方式。LeapMotion设备聚焦于细粒度的手指运动,让手指运动的精细刻画有了一定的可能性。本文的研究工作就是基于LeapMo