基于多策略的维吾尔文网页识别方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:star33333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 After the investigation and analysis of a large number of Uyghur language websites, this article studies Uyghur webpage recognition from multilingual mixed web pages, which plays a key role in Uighur information processing. First of all, this article explores the rules and principles of character encoding conversion for Uyghur non-standard web pages, and then treats the non-standard Uighur characters accordingly. Then, we introduce the modified N-Gram method and the Uyghur commonly used word eigenvectors , Which combines the Uyghur common candidate word corpus and Vector Space Model. Three different types of Uyghur texts were used as data sets in this study. Based on this, we verified the methods of identifying the texts in the paper and experiments using different methods to identify the texts. The experimental results show that the N-Gram-based method has the best recognition performance for the news with the longer text or the web page of the forum, whereas the method based on the common word eigenvector is superior to the N-Gram. The proposed method can achieve more than 90% overall performance of Uyghur web page recognition and verify the validity of the two methods.
其他文献
具有局部互连网(LIN)收发器功能的μC Microchip科技公司的PIC16C432/433μC,除了双循环程序分支外,还能提供2k宇OTP程序存储器、128宇节数据RAM以及35个功能强大的单循环指
学位
在科学技术高速发展的今天,我们越来越能够看到信息技术对教育教学的影响.尤其是到了高中阶段,学生的学习模式已经固定化,学生对于课堂学习激发不起热情,一味固有模式的学习,
在过去的几十年中,作为产业演化过程中的一种地缘现象,集聚及其产生的外部性在众多研究领域引起关注,究其原因是因为产业集聚对区域经济的发展与区域竞争力的提升起着重要的
在MPEG-2TM5建议的三步自适应量化策略的基础上,提出一种基于人眼视觉特征的MPEG-2视频编码自适应量化算法(PA算法),使MPEG-2的码率分配能基于人眼的特征,即对不同运动速率的物体人眼
中小企业在我国国民经济中占有举足轻重的地位,是保持我国经济快速稳定增长的动力之一。经过不断发展,LQ公司已初步成长为有一定影响力的地方代表型企业。新形势下,企业在行业政
作为近年来迅速兴起的本土IC设计公司,昂宝电子已经拥有了一个丰富的电源产品线,基本涵盖了消费电子1 W~2 000 W功率领域内的产品需求.目前全球只有少数几家欧美大厂能有如此
中国社科院颁布处理学术不端行为的办法为了进一步加强学风建设,建立健全不良学风预防惩治机制,根据《中国社会科学院关于加强学风建设的决定》精神,中国社会科学院最近制定
介绍了三系杂交水稻新组合吉优371的品种特性和广东省示范试验的产量表现,总结了吉优371配套高产栽培技术。 The characteristics of the three-line hybrid rice combinati
由于对能源需求的剧增以及离岸业的重要政治地位,中国政府已将离岸工程作为战略型产业来发展。这篇论文的目的是想了解中国的离岸工程如何能够增加它们的市场份额,以及如何加