基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类

来源 :计算机科学 | 被引量 : 0次 | 上传用户：skykight

【摘要】

：

针对维吾尔语文本的分类问题，提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先，对输入文本进行预处理，滤除非维吾尔语的字符和停用词；然后，利用

【作者】

：

阿力甫·阿不都克里木李晓

【机构】

：

中国科学院新疆理化技术研究所,中国科学院大学,新疆多语种信息技术重点实验室

【出处】

：

计算机科学

【发表日期】

：

2016年12期

【关键词】

：

维吾尔语文本分类关键词提取 TextRank算法互信息相似度 Uyghur language Text categorization Keyword

【基金项目】

：

本文受新疆多语种信息技术重点实验室开放课题（XJDX0905-2013-06）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对维吾尔语文本的分类问题，提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先，对输入文本进行预处理，滤除非维吾尔语的字符和停用词；然后，利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合；最后，根据互信息相似度度量，计算输入文本关键词集和各类关键词集的相似度，最终实现文本的分类。实验结果表明，该方案能够提取出具有较高识别度的关键词，当关键词集大小为1250时，平均分类率达到了91．2％。

其他文献

CORBA防火墙安全技术研究

传统防火墙通过保护网络入口点防止未授权的访问,这并不适用于CORBA在Internet上使用的IiOP协议,因此OMG提出CORBA防火墙安全性,旨在提供控制iIOP透过防火墙通信的标准方式,

期刊

代理防火墙CORBA对象IIOPGIOPOMGCORBA系统分布式系统授权外部运行机制CORBA object IIOP access

ANFIS在非线性系统建模与消噪中的应用

给出了自适应神经模糊推理系统(ANFIS)的一般描述,并应用ANFIS进行非线性系统建模和消除信号中的噪声,以此改进工业控制系统中非线性系统的控制性能.仿真表明ANFIS具有较高的

期刊

ANFIS非线性系统自适应神经模糊推理系统噪声信号adaptive fuzzy neural networks signal noise

一种智能加速度传感器的设计与实现

针对目前加速度传感器智能化程度较低的现状,详细介绍了一种智能加速度传感器的信号调理、串行接口等硬件电路设计和软件实现方案,并采用系统自检和数字滤波技术以增强系统的抗干扰性。试验结果证明,该传感器性能稳定,灵敏度可达到0 28mV/g,具有测量精度高、价格较低、灵活可靠的特点,克服了传统加速度传感器测量精度低、元器件精度要求较高、测试系统复杂昂贵、应用范围具有局限性的缺陷,大大提高了加速度测量的自动

期刊

智能加速度传感器设计硬件电路数字滤波抗干扰敏感元件单片机intelligent sensorsingle-chip computersigna

基于CPLD的数字语音通信复接／分接模块的设计实现

介绍了在数字语音通信中,利用在系统可编程技术和复杂可编程逻辑器件CPLD,实现了数字语音的复接和分接;对于其中的单稳态电路的数字化和数字锁相环提取位同步信号也进行了详

期刊

数字语音通信复接/分接位同步数字锁相环CPLDmultiplexing/demultiplexingCPLDbit synchronization

基于ASIC的微机和RAM间脉冲驱动的接口设计

论述了利用Verilog HDL语言实现ISA端口操作和脉冲驱动RAM接口逻辑设计,并充分利用端口读操作脉冲的所有信息(前后沿和其低电平)实现了微机-端口-RAM的流水线式接口设计,设计

期刊

VERILOGHDL可编程逻辑器件端口存储器流水线寄存器Verilog HDL programmable logic device port

一种基于GPU的高精度体系结构级功耗模型

随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序运行。为了追求高性能,GPU往往包含成百上千个核心运算单元,高密度的计算资

期刊

GPUFERMI功耗模型native指令存储器功耗GPU Fermi Power model Native instruction Memor

计算机测控技术在三河闸工程中的应用

介绍了水利部"948"重点项目"三河闸计算机测控系统"的结构、运行环境、主要特点和应用情况.文中就如何结合国内大型水闸监控系统的特点,研究解决大型水闸定流量群控技术、远

期刊

三河闸工程水闸闸门淮河洪水水利管理水利部技术重点项目国内computer measurement & control technol

基于扩展Petri网模型的BPMN形式化

BPMN（Business Process Modeling Notation）作为一个在系统开发早期阶段获取业务过程模型的标准,指导系统的设计和开发,其模型的正确性是影响软件开发质量的关键。鉴于BPMN模型

期刊

BPMN模型模型形式化PETRI网模型转换BPMN model Model formalization Petri nets Model tran

基于Petri网行为包含和行为继承的业务流程变化域传播分析

业务流程建模问题一直是业务流程管理的核心问题,其目的是为了灵活地适应变化的商务需求,但在建模过程中也会出现一系列的问题,有些模型之间甚至存在着相同的问题,因此会出现

期刊

变化域传播迹等价行为包含行为继承Change region propagation Trace equivalence Behavior inclu

SHA-1充分条件自动化求解算法

充分条件的求解是模差分攻击的重要步骤之一。将充分条件的求解转化为F_2上线性方程组的构造过程,利用线性方程组解的判定定理判断每步所求得充分条件的正确性,提出了针对SHA

期刊

密码学HASH函数SHA-1充分条件碰撞攻击Cryptology Hash function SHA-1 Sufficient conditio

基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类

其他学术论文