未登录词相关论文
自然语言处理(Natural Language Process,NLP)是一种让计算机尝试学会理解和处理人类口语或书面语的计算机技术。它与基于语言理解的......
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太......
日常生活中,人们的阅读量越来越多,但获取的有效信息却越来越少,这本质上源于信息过载。文本摘要技术可以帮助读者快速了解文章主......
命名实体识别任务的目的在于高效地从文本信息中抽取实体信息,是自然语言处理的基础性工作,但受制于数据中未登录词的影响,导致命......
当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然......
汉语词缀的显著特点是语义半虚半实、位置固定以及较高的能产性。词缀能够批量造就语言中急需的部分词语,造词规则较为明晰简单,符......
中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分词系统的性能紧密相关。目前的分词算法可以分为基于字符串匹配的分......
本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素,未登录词包括人名、地名、时......
当前,随着Internet技术的推广和应用,国际互联网已经成为世界上最大的信息资源库和全球范围内传播信息的最主要的渠道.如何帮助用......
随着互联网科技的蓬勃发展,微博微信等即时通讯工具随之出现,由于其具有简单易用,传播迅速等特点,日益成为大众日常重要的沟通交流......
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。......
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消......
双语词汇的构建是自然语言处理领域一项很基础的工作。双语词汇的好坏直接影响到机器翻译、跨语言检索等自然语言处理系统的性能。......
关键词抽取是文本信息处理的重要技术,是在进行文本自动摘要、文本自动分类、主题提取及专利检索分析等文本信息理解工作时,都要应......
中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词......
作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进......
中文分词是中文信息处理领域的一项基础性课题,未登录词识别问题又是中文分词的瓶颈问题之一。为了解决中文分词中的未登录词识别......
中文自动分词技术是中文信息处理的一个基础性课题,在中文信息处理中,首先需要对词进行切分,然后才能进行更深层次应用研究,随着信......
网络社区中产生的舆情信息包括大量文本、图片和视频等多种模态数据,其传播方式具有随意性、快速性、便捷性等特点,是社会舆论的聚......
中文自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,在很多领域扮演着非常重要的角色。中文自动分词......
分词就是将连续的文字序列按照特定的规范重新组合成词语序列的过程,在藏文信息处理领域分词是不可或缺的基础性工作,也成为智能化藏......
语音识别系统的确信度判决用于对未登录词(Out-of-Vocabulary,OOV)的拒识.本文提出了一种有效的确信度判决的方法.在本方法中包含......
在为检索信息而索引朝鲜文时,通常的做法是对语句和词素进行分析后把名词抽取成索引词.但由于分析的模糊性,若在对词素进行分析时......
0引言随着大数据时代的到来,如何从海量数据中发掘出对我们有用的知识,已经成为摆在相关领域学者面前最迫在眉睫的问题。虽然我们......
由于汉语与英语有不同的特点,导致机器翻译时把汉语当做源语言要比把英语当做源语言要困难得多。本文试图从汉英机器翻译的角度探......
藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,......

