一种具有主次标签的多标签文本分类方法

来源 :电子测试 | 被引量 : 0次 | 上传用户：pentagon888

【摘要】

：

随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息

【作者】

：

李晓

【机构】

：

北京理工大学计算机学院

【出处】

：

电子测试

【发表日期】

：

2015年期

【关键词】

：

文本分类多标签主标签次标签 MLTCPSL

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息的处理效率,节约人工处理时间,方便用户的使用,近年来得到了广泛的关注和快速的发展。文本自动分类是信息检索与数据挖掘研究领域的热点方向,它是机器学习和自然语言处理的关键技术之一。但各种主流的分类方法都只能为文本分配一个或多个标签类别,而不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,针对文本分类自动化处理技术开展研究,主要工作包括以下几个方面:1、提出了一种基于主次标签的多标签分类方法(MLTCPSL),该方法针对具有主次标签的多标签分类问题中标签关系相互独立、主次权重有别、数量要求不一的特点,将问题分解为求解主标签的多类单标签分类和求解次标签的多类多标签分类两个问题,实现了多标签分类中主、次标签的自动识别。2、提出了一种基于基准分类器和决策门限优化方法,有效解决大规模文本数据多类分类中类别不均衡问题,提高了分类器的精度,主标签处理准确率达到90%,次标签准确率达到80%。3、设计实现了MLTCPSL的自动更新方法,通过对SVM进行在线式改造,使之具备自适应更新模型能力,从而使算法具备自学习能力。

其他文献

金融危机中美国存款保险制度的应对及启示——基于联邦存款保险公司的分析视角

美国的存款保险制度在经历本轮金融危机考验的同时,也完成了制度革新与职能转变。危机期间,不断变革与完善的存款保险制度在稳定美国金融体系和维护公众信心方面发挥了重要的

期刊

保险研究存款保险金融危机风险差别费率款保险基金后备融资机制

基于数字证书认证的IPSec VPN研究与应用

Internet技术的广泛应用,使人们可以方便地进行信息交换和共享,但也给计算机系统带来了前所未有的安全隐患：信息在传输时可能被窥探或非法修改；内部网可能遭受非法访问和攻击。

学位

虚拟专用网身份认证IPsec密钥交换协议安全关联数字证书智能卡

自制CO2清除器在高原富氧室中的应用

West JB.研究认为,高原夜间小幅度提高室内O2浓度（海拔3800mO2浓度24%）可改善睡眠和第二天的作业效率。但有关高原富氧室内人呼出气中CO2的清除问题未见文献报道。我们在海拔37

会议

高原富氧室CO2清除器

程序化教学在儿科护理教学管理中的应用探讨

目的探讨程序化教学在儿科护理教学管理中的应用效果。方法选取该院2015年6月—2017年6月期间接收护理的专业临床实习生82名,按照入院的时间顺序分为两组,每组41名实习护士。

期刊

程序化教学儿科教学管理

允许（Permission）作为一种程序原则是否可行？

这篇论文致力研究美国著名生命伦理学家恩格尔哈特的思想,重点讨论恩格尔哈特俗世生命伦理学的核心问题——“允许原则”。这篇论文写作的理论意义在于详尽解读恩格尔哈特“

学位

生命伦理学道德分歧允许原则理性家长主义

基于MDA的多维数据分析平台的设计与实现

随着信息化技术的发展和管理信息系统的普及,各行业的业务处理数据库中积累了大量而丰富的数据。人们希望从这些海量的业务数据中探寻规律、发现知识,以辅助管理决策。然而普

学位

模型驱动架构多维数据模型数据仓库ETL多维数据分析

对网络信息安全相关研究

本文针对性的分析现阶段实施的解决网络信息安全的技术,随后对选取的这些技术的局限性进行分析,最后展望网络信息安全的发展趋势,以期可以为网络信息安全提供一定借鉴。

期刊

网络信息安全防火墙数据加密入侵检测network information security firewall data encryption intru

一种具有主次标签的多标签文本分类方法

其他学术论文