中文搜索引擎中的中文分词应用

来源 :中国教育技术装备 | 被引量 : 0次 | 上传用户:zhou414663000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题。而在搜索引擎中核心的部分之一是中文分词算法,它在一定程度上影响着检索的速度。简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用。
  关键词 搜索引擎;中文分词;网络信息
  中图分类号:TP393.01 文献标识码:B 文章编号:1671-489X(2013)03-0067-02
  Chinese Search Engine in Chinese Word Segmentation Application//Zhu Lili
  Abstract The rapid increase of network information search information for people to bring certain difficulty. Search engine solute to the problem timely. The search engine is one of the core of the Chinese word segmentation algorithm. To a certain extent it affects the speed of retrieval. This paper focuses on the simple introduction about Chinese word importance, methods and the problems. To provide further development for the Chinese word segmentation. Allows search engines to play an increasingly strong role.
  Key words search engine; Chinese word segmentation; network information
  1 引言
  随着科技时代的发展,网络越来越成为人们生活中的重要部分,特别是网络信息的急剧增长使人们获取信息的方式发生了极大的改变。相比于以前翻阅纸质书籍,现在的人们更喜欢在网络上寻找自己想要的信息,这不仅可以极大地提高搜索信息的效率,而且可以增加搜索信息的广度和深度。基于此,搜索引擎便应运而生,搜索引擎可以让人们在海量的信息中更快地搜索到自己想要的资源。而搜索引擎在面向用户接口这个层面上,比较重要的技术是中文分词技术,所以本文先简要地介绍一下搜索引擎,在此基础上进一步阐述中文分词技术在搜索引擎中的重要作用以及相应的应用。
  2 搜索引擎
  面对海量的网络信息,搜索引擎的出现给人们查找自己想要的资源带来了极大的便利。搜索引擎是一种在网络上应用的软件系统,它有自己的检索数据库,这个也是系统的核心部分,检索数据库的形成是先通过在Web上自行收集的大量的信息,然后对这些信息进行相应的处理,以便能够形成可以用于检索的数据库。从用户的角度来看,这个软件系统提供给了用户一个可以用于检索的界面,用户从这个界面中输入自己想要查询的内容,系统会根据用户输入要求,提供给相应的检索结果。搜索引擎的原理可以简单描述为三步:从网络上收集相应的网页——建立相应的索引数据库——在索引数据库中进行相应的检索。
  搜索引擎的出现为网络信息的发展提供了很大的发展空间,由于搜索引擎的技术首先是在国外发展的,所以对于英文信息的搜索引擎技术现在来说已经是比较成熟的了,而对于中文信息的处理的搜索引擎相比较来说就没有那么完善。一方面来说是因为搜索引擎在中国出现得比较晚,加之中文的复杂性等原因,中文搜索引擎还需要进一步地发展完善。下面就对在中文搜索引擎中所用到的中文分词进行简要的介绍。
  3 搜索引擎中的中文分词
  3.1 中文分词的重要性
  随着科技社会的快速发展,网络信息也越来越发挥着重要的作用,信息量也是愈加的丰富,在给人们带来便利的同时也带来了一些困扰,如何能够在浩海如烟的信息中快速地搜索到自己想要的信息?搜索引擎的出现及时解决了这个问题,如比较熟悉的百度、谷歌等网站都已经将搜索引擎做到了极致,使人们能够快速搜索到自己想要的资源。搜索引擎一般是以词为基本单位进行相应的检索,这样就要求将输入的中文句子切分成相应的词语,这就涉及到其中比较重要的技术——中文分词技术,它是机器翻译、信息检索的重要基础。
  中文分词是什么呢?先来了解一下分词。分词就是将词语从一整个句子中划分出来,这个过程称之为分词。学习过英语的人都了解,英语词与词之间的间隔是以空格来分割的,计算机能够识别这样的每一个单词。而中文不是,中文只有一句话或是一个段落才会用相应的分割,而分割符一般也有好多种,这样就给计算机的识别带来了一定的困难。中文分词就是将输入的、计算机不能够直接理解的一些字符串转换成计算机能够理解并处理的词序列,以便为下一步的语义分析模块提供分析的基础。
  3.2 中文分词算法
  1)基于词典的分词算法。基于词典的分词算法也称之为字符串匹配的分词方法或是机械分词法,它是将待匹配的字符串和已建立好的词典中的字符串进行匹配,若在词典中找到该字符串,说明匹配成功,则计算机就识别该字符串。按照在匹配过程中查找的顺序不同,可以分为正向匹配方法和逆向匹配方法;按照长度不同进行优先匹配的情况来分的话,可以分为最长匹配方法和最短匹配方法。这种分词方法是最简单的一种分词方法,相对来说分析效率比较高,但由于中文汉字结构的复杂性以及新词语的不断涌现,使得这种分词方法不能很好地解决一词多义以及未登录词的问题。
  2)基于理解的分词算法。基于理解的分词算法的基本思想是让计算机模拟人类大脑对于词语和语义的理解,以便能够达到识别中文词语的效果。比较重要的部分是调度系统,在这部分的协调之下,计算机能够更好地识别相应的词、句子,并根据它们的句法和语义信息来消除分词过程中的歧义现象。但由于汉字知识信息的复杂性,让所有的汉字都能够组成机器所能够理解的形式是一项比较巨大的工程,所以这种分词方法还是处于试验阶段。   3)基于统计的分词方法。基于统计的分词方法是基于人们对于中文词语的直觉。词语是由稳定的字组成的,一般来说相邻的两个字在一块儿出现的频率越高,组成一个词的可能性就越高。该种分词方法就是利用计算字与字之间出现的频率来判断是否能够组成相应的词语。而统计频率的方法一般是用大量的文本进行训练,然后判断它们是否能够组成词语,当它们共现频率达到一定值的时候,就说明能够组成词语。这种分词方法只是对训练文本中相邻的字进行频率统计,所以不需要与词典进行匹配,所以检索效率相对来说比较高。
  这三种分词方法各有利弊,在应用到系统时可以根据相应的情况进行选择,比较成熟的系统一般是将几种分词方法联合起来使用。
  3.3 中文分词发展中的难点
  虽然中文分词算法的研究已取得一些成果,已经有一些比较系统的分词标准, 但不可避免地也会存在一些问题,主要是有以下几方面的困扰。
  首先是分词速度和分词精度是一个难题。现在的中文分词算法在这两方面做得还不够好,使得系统的运行速度以及检索结果都未到达到理想的状态。
  其次是词义歧义的问题。一般是指一句话或一个词有两种或更多种的意思,使计算机搞不清楚到底是什么意思,这样显然会给系统的检索精度带来一定的影响。歧义的处理是中文分词的一大困难,主要因为歧义有很多种类,不同种类的歧义问题需要不同的解决方案。
  还有一种问题是识别未登录词。未登录词一般是指出现的新词,还没收录在词典中,这样就匹配不到相应的字符串。这种词一般是人名、地名或者是随着时代的发展出现的一些新词。把这些词及时收录到自己的字典当中是一项比较复杂的工程,因此也是中文分词亟待解决的问题。
  4 结束语
  随着科学技术的发展,越来越多的领域会涉及中文分词算法的应用,如何能够快速、准确地检索到自己想要的资源,这有待于中文分词算法的进一步改进。虽然在搜索引擎中中文分词算法的研究取得了一定的成果,但还有上文中的一些难点没有突破,这需要进一步研究,除了要在改善3种主要的分词算法上下功夫,还需要将多种方法结合起来使用,以便取得更好的分词效果。相信随着科学技术的进一步发展,以及各类专家的不懈努力,在不久的将来,中文分词算法会取得长足的进步,这样搜索引擎就会发挥越来越强大的作用。
  参考文献
  [1]龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009(10):2605-2607.
  [2]刘件,魏程.中文分词算法研究田[J].微计算机应用,2008,29(8):11-16.
  [3]刘红芝.中文分词技术的研究[J].电脑开发与应用,2010,2(3):173-175.
其他文献
近年来,高中生的耐力、柔韧性、力量、爆发力等体质指标均有不同程度的下降。运动干预能够在合适的运动方案下对高中生进行针对性锻炼。以此为契机,研究运动干预对于高中生体
【正】 郑州铁路局地处中原,位于全国路网中心.线路贯通豫、鄂、陕三省,延伸晋、鲁、川、甘四省,现有职工36万余,卫生服务人口逾百万。全局有7个卫生防疫站,747名卫生防疫人
生物是高中的一门自然基础课程,由于它涉及的概念、理论、定律、实验和探究的内容比较多,因此,在教学中除注重课本内容教学外,还应加强对实验的教学与研究,并通过实验教学达到“分化教学难点、突出教学重点、全面培养能力”的教学目标。多年来,立足高中生物教学实际,以实验教学改革为突破口,强化动手能力和实验能力的培养,收到了良好的教学效果。通过实验的教学改革与建设,紧紧围绕实验教学改革,大胆探索“五环节”教学法
对课程信息化教学设计进行总体规划,并研究机床夹具设计课程信息化教学的学习任务、教学过程、教学情境、教学资源、自学辅助系统、学习效果评价系统的设计,从据此开展教学实
1调查方法选择在本地药品批发部,药店及医院中销售、使用的消毒剂产品进行登记调查,核查消毒剂产品的省级(或部级)"卫生许可证"、实验报告书、产品说明书及标签.
<正> 1 环境卫生工作面临的问题1.1 档案建设不规范 从哈尔滨市12个县(市)整体看,无论是公共场所、饮水卫生、化妆品卫生基层单位档案,还是全年体检、培训、监测等专项档案存
1调查对象与方法1.1调查对象分类饮食业的规模以客座的多少为标准,根据龙里县情况,100个客座以上者为大型餐饮,50~100个客座者为中型餐馆,50个客座以下为小型餐馆,各类型餐馆
对中大型Web项目开发中出现的问题进行总结,介绍MVC的设计模式,阐述第三方框架支持下的AJAX开发,通过该模式不但可提高应用的响应速度,同时保证应用的可扩展性和可维护性。
摘 要 多媒体教学具有综合处理文字、影像、声音、图片的能力,能做到图文并茂、声形兼备,使教师教得轻松、学生学得愉快,使每一个学生的主动性都得到充分发挥,并有效地提高课堂教学效率,全面提高学生的语文素养。  关键词 创设情境;语文;多媒体  中图分类号:G633.3 文献标识码:B 文章编号:1671-489X(2013)04-0040-02  多媒体教学具有综合处理文字、影像、声音、图片的能力,能
在科学技术迅猛发展的今天,信息技术已广泛运用于教学领域,尤其在小学语文课程中发挥着越来越大的作用。信息技术融入语文教学当中,和传统教学有机结合,使原有枯燥乏味的教学模式变为生动活泼、具体形象,信息技术与传统教学方法相辅相成,达到珠联璧合、比翼齐飞的教学效果。信息技术创新了小学语文教学模式,运用先进的教学手段,改善传统的教学方法,激发学习兴趣,提高学习效率,给小学语文教学带来一场新的革命。如果在小学