【摘 要】
:
中文分词是中文信息处理的基础。在自然语言理解、语言文字研究、中文文本自动标引、信息检索、机器翻译等领域中,中文分词具有不可替代的作用。因此,中文分词的研究至关重要
论文部分内容阅读
中文分词是中文信息处理的基础。在自然语言理解、语言文字研究、中文文本自动标引、信息检索、机器翻译等领域中,中文分词具有不可替代的作用。因此,中文分词的研究至关重要。但是,中文分词的研究水平已经远落后于与它关联的相关技术,成为制约其它技术发展的瓶颈。中文分词的研究过程中遇到了以下问题:语言学方面的困难,新词的不断出现,歧义的判别,分词的标准不统一等;计算机方面的困难,没有合理的自然语言形式模型,没有有效方式对语义进行理解以及形式化等。这些问题将会制约着中文分词的发展。本文在综合分析现有的中文分词研究成果,重点对基于图的中文分词进行研究,提出了基于S-EK图最短路径的中文分词。研究的主要内容如下:1.对中文分词的主要的算法进行了研究,比较和分析了常用的三种分词算法:基于字符串匹配的分词算法,基于统计的分词算法和基于知识理解的分词算法,并对它们之间的优缺点进行了总结。最后文章还给出了中文分词的评测标准及其意义。2.重点在有向图和中文分词结合方面进行了深入研究,对N-最短路径中文分词的算法中的有向图进行改进,提出了S-EK图,并采用N-元统计模型计算出一个词在一定的语境下的概率,并对该值做了平滑处理,把最后的结果作为S-EK图的边的权值。3.基于S-EK图的优点提出了S-EK最短路径算法。该算法在与N-最短路径算法和Dijkstra算法进行对比,实验和理论推导均证明该算法有一定的优点和价值。
其他文献
物流监管业务是我国物流企业拉动并促进各项主营业务发展的一条新途径。物流监管业务的信息化是提高整个企业物流监管业务管理效率和监控能力的有效手段。物流监管业务是第三
三维视频表现的信息更丰富、形象,它不仅应用在娱乐领域还能用于生产实践领域,它可用于虚拟现实、实时控制、精确制导、交互控制等方面,具有巨大的应用空间和应用价值。本文
在软件体系结构研究领域,出现了由通过构件和连接子来描述体系结构的方法向通过记录设计决策和设计理由来描述体系结构的方法的转换。这主要是因为构件-连接子模型只记录设计
图像是人类获取、传递和交流信息的重要途径之一。但是在图像获取、传输和存储过程中,由于环境条件、光学成像设备局限性等影响,不可避免会引入模糊,从而降低其质量。计算机视觉
近几年来,计算机网络技术高速发展,网络信息量呈指数级增长。想在网络中找到需要的信息越来越难,故搜索引擎应运而生了。搜索引擎中的一个重要技术为网络爬虫技术,将网络爬虫
在数控技术的发展过程中,如何进行数控加工程序的编制已经成为影响数控加工效率及质量的关键。针对这一问题,在蓝天数控系统的基础上,结合数控图形编程的编程特点,开发了面向中小
开发者在开发过程中常常会使用一些API(Application ProgrammingInterface)来实现手边的任务。现有API数量巨大,且在不断更新和增加,即使再有经验的开发者也不可能掌握所有API
随着科技的发展和信息技术的进步,运动目标检测和跟踪作为智能视频监控的基础和核心在计算机视觉领域里成为了人们研究的热点问题之一,它的效果好坏,直接影响着整个系统工作
随着移动互联网的发展,智能手机的普及,信息的获取和分享变得越来越便捷。为了便于人们在手机等资源受限设备上快速获取感兴趣的图像数据,研发在资源受限环境下的图像检索系统尤
激励合约优化模型包括道德风险、逆向选择和信号传递问题三个优化模型。近十年来,激励合约优化模型的研究和应用基本上依赖解析分析的理论推导,其应用也仅停留在定性分析层面