基于多策略的维吾尔文网页识别方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：star33333

【摘要】

：

经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的

【作者】

：

阿力木·木拉提艾孜尔古丽杨雅婷李晓

【机构】

：

中国科学院新疆理化技术研究所,新疆民族语音语言信息处理重点实验室,中国科学院大学,新疆师范大学计算机科学技术学院,

【出处】

：

中文信息学报

【发表日期】

：

2017年01期

【关键词】

：

维吾尔文网页识别 N-Gram方法常用词向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 After the investigation and analysis of a large number of Uyghur language websites, this article studies Uyghur webpage recognition from multilingual mixed web pages, which plays a key role in Uighur information processing. First of all, this article explores the rules and principles of character encoding conversion for Uyghur non-standard web pages, and then treats the non-standard Uighur characters accordingly. Then, we introduce the modified N-Gram method and the Uyghur commonly used word eigenvectors , Which combines the Uyghur common candidate word corpus and Vector Space Model. Three different types of Uyghur texts were used as data sets in this study. Based on this, we verified the methods of identifying the texts in the paper and experiments using different methods to identify the texts. The experimental results show that the N-Gram-based method has the best recognition performance for the news with the longer text or the web page of the forum, whereas the method based on the common word eigenvector is superior to the N-Gram. The proposed method can achieve more than 90% overall performance of Uyghur web page recognition and verify the validity of the two methods.

其他文献

微控制器·数字信号处理器

具有局部互连网(LIN)收发器功能的μC Microchip科技公司的PIC16C432/433μC,除了双循环程序分支外,还能提供2k宇OTP程序存储器、128宇节数据RAM以及35个功能强大的单循环指

期刊

微控制器程序存储器字节数据循环指令循环程序功能收发器互连网科技局部

我国互联网金融发展的空间效应分析--基于社会网络分析的方法

学位

信息技术环境下高中思想政治课堂教学模式研究

在科学技术高速发展的今天,我们越来越能够看到信息技术对教育教学的影响.尤其是到了高中阶段,学生的学习模式已经固定化,学生对于课堂学习激发不起热情,一味固有模式的学习,

期刊

信息技术高中思想政治课堂教学模式

集聚经济与企业区位选择——基于企业异质性的经验研究

在过去的几十年中,作为产业演化过程中的一种地缘现象,集聚及其产生的外部性在众多研究领域引起关注,究其原因是因为产业集聚对区域经济的发展与区域竞争力的提升起着重要的

学位

集聚经济区位选择空间连续性异质性企业逆向选择

基于人眼视觉特征的MPEG码率分配算法

在MPEG－2TM5建议的三步自适应量化策略的基础上，提出一种基于人眼视觉特征的MPEG－2视频编码自适应量化算法（PA算法），使MPEG－2的码率分配能基于人眼的特征，即对不同运动速率的物体人眼

期刊

人眼视觉特征视频编码码率分配

基于“BOP”视角的企业石镇中小企业创新商业模式研究

中小企业在我国国民经济中占有举足轻重的地位，是保持我国经济快速稳定增长的动力之一。经过不断发展，LQ公司已初步成长为有一定影响力的地方代表型企业。新形势下，企业在行业政

学位

投资环境中小企业创新商业模式市场开发产业价值链

昂宝以全方位产品线获得全方位的伙伴联盟

作为近年来迅速兴起的本土IC设计公司,昂宝电子已经拥有了一个丰富的电源产品线,基本涵盖了消费电子1 W～2 000 W功率领域内的产品需求.目前全球只有少数几家欧美大厂能有如此

期刊

全方位产品线消费电子设计公司产品需求时间欧美功率电源大厂

加强学风建设建立健全不良学风预防惩治机制

中国社科院颁布处理学术不端行为的办法为了进一步加强学风建设,建立健全不良学风预防惩治机制,根据《中国社会科学院关于加强学风建设的决定》精神,中国社会科学院最近制定

期刊

学术不端行为学术活动研究成果学术道德成果形式中国社会科学院辅助人员质量要求擅自更改处理意见

三系杂交水稻新组合吉优371高产栽培技术

介绍了三系杂交水稻新组合吉优371的品种特性和广东省示范试验的产量表现,总结了吉优371配套高产栽培技术。 The characteristics of the three-line hybrid rice combinati

期刊

杂交水稻新组合栽培技术吉优371三系品种特性示范试验配套高产栽培年晚晚稻种植分蘖力

如何在离岸工程中加强中挪合作价值系统视角

由于对能源需求的剧增以及离岸业的重要政治地位,中国政府已将离岸工程作为战略型产业来发展。这篇论文的目的是想了解中国的离岸工程如何能够增加它们的市场份额,以及如何加

学位

中国挪威离岸工程中挪合作

基于多策略的维吾尔文网页识别方法

其他学术论文