百度博士后眼中的未来搜索

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:acidliu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  毕业于哈尔滨工业大学计算机科学与技术学院的赵世奇,是百度博士后工作站成立以来的第一名博士后,到2010年底,赵世奇已经在百度工作了一整年。赵世奇对自己一年来的发展评价是“超出预期”,然而,最让赵世奇感到骄傲的,是他作为百度博士后的身份,让他获得了参与探索前沿搜索技术的机会。
  
  探索搜索前沿技术
  
  “下一代搜索引擎究竟应该是什么样子的?”自搜索引擎诞生之日起,业界对这个问题的探讨从未停歇,而随着互联网信息不断丰富,这个话题也越来越受到关注。
  尽管“让机器读懂人的思想”是多年来业界和学术界一直努力的方向,但是实现起来却并非易事。“举例来说,”赵世奇告诉记者,“最近很多人在百度上搜索‘给力的歌曲’,希望能得到相应的答案。如果是我问你,你可能会推荐一首最近听过的好歌。但是,怎样能让计算机理解什么叫‘给力’,并且识别出什么樣的歌曲是‘给力的歌曲’,这个问题就很值得探索。”实现人与搜索引擎之间更有效的沟通,已经成为百度“自然语言处理(NLP)部”最核心的工作任务。简而言之,就是深入理解用户的需求和互联网上的信息,并将两者精准匹配。
  作为百度自然语言处理部的主要成员之一,赵世奇对他所从事的前沿探索——语义搜索——有着自己的见解。他认为“所谓语义搜索,是指基于语义分析和用户行为分析等技术,对各类资源和服务进行智能调度,从而更好地满足用户需求的搜索。”具体地,语义搜索的定义应体现在两个层面:首先,在功能层面,语义搜索体现为对用户查询和互联网数据的“深入理解”;其次,在技术层面,语义搜索体现为对多种搜索技术和自然语言处理技术的综合应用。早在2009年,百度CEO李彦宏就创造性地提出了“框计算”理念。框计算是一种简单可依赖的互联网需求交互模式,用户只要在框中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的应用或内容资源提供商处理,最终返回给用户相匹配的结果。
  根据赵世奇的理解,“语义搜索”是框计算理念得以实现的重要技术保证,而“语义搜索”未来的重点可能包括“查询的深入理解”和“资源的精细加工”。
  如果只是一个技术研发者,赵世奇可能会期待“语义搜索”技术对搜索引擎带来颠覆性的影响,但作为服务4.5亿网民的全球最大中文搜索引擎公司的一员,他早已经学会更多地从用户体验角度来思考这个问题。“在百度的工作让我明白,再炫的技术,最终是为提升用户体验服务的”,所以赵世奇现在常提醒自己,要在理论研究和应用实践间找到恰当的平衡点。
  
  超出预期的成长
  
  赵世奇所在的自然语言处理团队,就是百度最核心的技术团队之一,其成员全部由顶尖学者和工程师组成,已有六十余人,而且这个数字还在不断增长。同时,这支团队在国内外的影响力也与日俱增。赵世奇回忆道:“去年,在计算机语言国际会议Coling召开期间,百度在现场布置的展台周围每天都人头攒动,人们既对百度感兴趣,更对百度的自然语言处理研究感兴趣。这让我突然认识到,百度已经迈出脚步,走向了世界。”
  在百度,赵世奇获得了世界自然语言处理领域领军人物之一、百度高级科学家王海峰的精心指导。而赵世奇的博士后研究导师、百度公司CEO李彦宏更是他一直以来的偶像:“这不仅因为李彦宏创立百度取得了巨大的商业成功,更因为他在搜索技术上的成就以及他骨子里对技术的热爱与执着、对目标的坚定与坚守。”
  现在,对搜索引擎的未来会变成什么样子,赵世奇心中已有了更加明确的方向,他比喻说:“当电灯发明之前,大家觉得点蜡烛也蛮好的,晚上可以照亮。但是当电灯发明后,人们才发现原来蜡烛是满足不了人的需求的。因此,如果我们依据当前对搜索引擎的定义来看百度的搜索,其实它已经差不多达到了我们的需求,但这不代表用户没有更高的需求。如果我们能够努力地突破这一层,更上一层回头看搜索引擎,才能看到它的不足之处。”
其他文献
古有南海郡,今为南海区——南海的历史上不乏康有为、詹天佑、黄飞鸿这样的文化名人。也正是出于对知识的尊重,佛山市南海区积极推进教育信息化,早早确立了“以教育信息化推动教育现代化”的发展策略,在财政、配套政策上大力支持南海教育信息化。自然,南海区取得的成绩斐然——1999年,南海区成为“国家教育信息化试点区”;2010年以来,南海区先后成为广东省基础教育综合改革示范区(广东省唯一)、教育国际化实验区、
传统的关系型数据库管理系统通常只支持行存储表,即数据按记录存储,每条记录的所有属性存储在一起。随着OLAP、数据仓库等查询密集型应用越来越广泛,行存储在应对这类型应用时的局限性逐渐突出,许多厂商适时推出了自己的列存储数据库系统。列存储按表的数据列来组织和存储数据,表的每列数据被存储在一起。DM7实现了列式存储,并支持对用户透明的行、列存储表的混合操作。  DM7列存储表中的每个列对应两个段。其中一
操作系统安全事故引发的后果令人惶恐不安。针对国家的关键基础设施或工业控制系统的“火焰”、“qudu”、“震网”等病毒,至今让人闻之色变。“这些病毒都跟操作系统密切相关。” 深圳市安盾椒图科技有限公司(简称椒图科技)常务副总经理李科在接受本报记者专访时表示,“这些恶意代码的变形能力、隐藏能力十分强大,只能在事后才能被捕获到,在他进行攻击时,大多数基于特征库的解决方案都没有用。”  面对操作系统攻击我
3月24日,浪潮集团同时发布了浪潮GS5.2.1、浪潮eHR5.2.1、浪潮BI5.2.1系列新产品,旨在新形势下进一步推动集团管控走向深度应用,帮助中国集团企业实现“集中、协同、精细、智能”的管理,全面推进集团企业管理升级。  随着大型集团企业尤其是央企对信息化投入的不断加大,集团管控的模式和思想在集团企业中的普及和深入,以及云计算、物联网等新技术带来的产品升级和商业模式的变革,我国集团企业信息
“为正面评论付费”其实是大众媒介“漏沙式”传播模式的一种复制,是对传播议题的后期捕捉和再传播,适应了社交媒体“去中心化”的特性,表达了企业对口碑营销的诉求。  ——本报记者 张建设  为正面评论付费,这让人不由想起电影《求求你,表扬我》中的杨红旗。不过,这不是电影虚构的剧情,而是社交媒体中正在上演的现实。  日前,市场研究公司Gartner发布的一份研究报告称,到2014年,社交媒体网站上的所有用
北京易恒信认证科技有限公司是在北京市科委支持下,由北京信息安全产业基地与CPK技术发明人和QNS工作室于2005年7月共同发起成立的一家专门从事CPK技术研究和产业化服务的高技术公司,是政府重点扶持的科技创新企业。公司以具有国际领先水平和自主知识产权的CPK技术为核心,以创新发展新一代可信安全技术为己任,坚持CPK Built-in经营理念,致力于通过与企业用户的密切合作,将CPK技术嵌入到设备、
在进入中国市场的25年间,摩托罗拉在应急响应、救援救灾、交通运输指挥调度等领域的业务发展似乎一直被其手机业务的光芒所遮掩。自从摩托罗拉凭借“系统”重生后,其在中国应急通信领域25年来惊人的发展状况,才开始被业界所关注。  作为一家本地化十分成功的跨国通信企业,在过去的25年中,摩托罗拉系统一直是中国基础设施建设发展变革的见证者和参与者。2000年,它为广州地铁提供了中国第一套模拟集群通信系统,而今
对企业的IT系统管理人员来说,对散布在工作人员手中的IT终端进行管理一直是一个让人头疼的问题。移动终端的大量涌现让这一问题更加难以解决。  近日蓝代斯克和联想达成了一项合作。蓝代斯克为联想定制的联想桌面管理套件将成为联想产品线的一部分,为中国中小企业初步解决这一棘手的难题。  “今天,一方面,各种各样的计算终端不断涌现;另一方面,软件的交付方式也变得多种多样。因此,IT部门必须改变原来的业务模式。
传统的城市设施巡检手工作业一直存在难题:巡检员在外工作时难以监管;管道发生故障时不能在第一时间汇报故障详情,影响领导决策,耽误抢修;巡检员完成一天的工作后要回公司填工作报告,费时耗力。  现在,转机出现了。企业管理层可利用巡检员手中的巡检通检查其位置信息和工作情况,而且能根据巡检通的回放轨迹检查巡检员的工作情况;巡检员每一阶段的工作都可在巡检通中生成工作报表,领导可在线查阅;当故障发生时,巡检员可
填表是我们日常生活中最常见的事:申请护照时要填个人资料表格,领结婚证时得填表,医疗报销也要填表……无纸化办公让政府机关办公桌上的纸质表格文件少了一些,但能不能让各部门海量的电子表格所占用、耗费的IT资源也节省一些呢?云计算为此提供了可能。    试水“云表单”    某省会中心城市原来每一个政府部门都有大量的电子表格,他们尝试通过云表单形式,让大家共享一个表单服务平台,不再是各个部门自建表单服务器