机器学习的查询扩展在博客检索中的应用

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:yangyuwu21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习.能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任
其他文献
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种
我国社会经济不断发展,农业也得到大量发展契机,社会对于农产品需求也越来越大。为提升农用地单位面积产量,提升农业经济效益,人们加大化肥、农药、地膜等物品的使用,打破了
因认为侵犯了自己的商标权并对自己构成不正当竞争,正泰集团股份有限公司将北京正泰亚明照明科技有限公司告上法庭。据悉,北京市第二中级人民法院一审判决北京正泰亚明照明科技
在江苏省计委、经贸委及地方相关部门的规划和国内知名集团公司的支持下,根据国家科技部高新技术产业化发展要求,积极发展拥有自主知识产权的核心技术和产业。经过两年孵化过程
通过SWTO分析方法对甘肃省静宁县苹果产业从优势、劣势、机会和威胁4个方面进行了系统探讨;采用多重线性回归模型检验,分析了静宁县苹果产业发展对当地经济发展的带动作用,根
2004年,山东省净增规模以上工业企业4127个,比2003年全年净增数多1418家,比1999~2002年四年的累计增加数多2061家;全省当年总数已达到20304个。
目前,世界环保产业年产值高达6000亿美元,被誉为发展潜力巨大的“朝阳产业”。专家预测,2005年我国环保机械制造业总产值将达到500~600亿元,年增长为12%~16%。
无公害茶叶指的是在没有任何病虫害的基础上生产出来的现代化茶叶,无公害茶叶口感好、产量高、销路。为了更好的提升无公害茶叶的质量,需要对茶叶的种植技术及病虫害防治引起
狭义的水资源即陆地上可被人们利用的各种淡水资源。本专题的复习,要了解有关水的基本概念、水平衡、水循环原理,以辩证的观点分析人类对水资源的开发和利用,以可持续发展的观点
本文介绍了一个同时利用词语和义项来索引和检索文档的信息检索模型,称为"义项矩阵模型"SMM(Sense Matrix Model).利用词语和义项的关联提出了一种新的文档表示,即把文档表示