一种具有主次标签的多标签文本分类方法

来源 :电子测试 | 被引量 : 0次 | 上传用户:pentagon888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息的处理效率,节约人工处理时间,方便用户的使用,近年来得到了广泛的关注和快速的发展。文本自动分类是信息检索与数据挖掘研究领域的热点方向,它是机器学习和自然语言处理的关键技术之一。但各种主流的分类方法都只能为文本分配一个或多个标签类别,而不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,针对文本分类自动化处理技术开展研究,主要工作包括以下几个方面:1、提出了一种基于主次标签的多标签分类方法(MLTCPSL),该方法针对具有主次标签的多标签分类问题中标签关系相互独立、主次权重有别、数量要求不一的特点,将问题分解为求解主标签的多类单标签分类和求解次标签的多类多标签分类两个问题,实现了多标签分类中主、次标签的自动识别。2、提出了一种基于基准分类器和决策门限优化方法,有效解决大规模文本数据多类分类中类别不均衡问题,提高了分类器的精度,主标签处理准确率达到90%,次标签准确率达到80%。3、设计实现了MLTCPSL的自动更新方法,通过对SVM进行在线式改造,使之具备自适应更新模型能力,从而使算法具备自学习能力。
其他文献
美国的存款保险制度在经历本轮金融危机考验的同时,也完成了制度革新与职能转变。危机期间,不断变革与完善的存款保险制度在稳定美国金融体系和维护公众信心方面发挥了重要的
Internet技术的广泛应用,使人们可以方便地进行信息交换和共享,但也给计算机系统带来了前所未有的安全隐患:信息在传输时可能被窥探或非法修改;内部网可能遭受非法访问和攻击。
West JB.研究认为,高原夜间小幅度提高室内O2浓度(海拔3800mO2浓度24%)可改善睡眠和第二天的作业效率。但有关高原富氧室内人呼出气中CO2的清除问题未见文献报道。我们在海拔37
目的探讨程序化教学在儿科护理教学管理中的应用效果。方法选取该院2015年6月—2017年6月期间接收护理的专业临床实习生82名,按照入院的时间顺序分为两组,每组41名实习护士。
这篇论文致力研究美国著名生命伦理学家恩格尔哈特的思想,重点讨论恩格尔哈特俗世生命伦理学的核心问题——“允许原则”。这篇论文写作的理论意义在于详尽解读恩格尔哈特“
随着信息化技术的发展和管理信息系统的普及,各行业的业务处理数据库中积累了大量而丰富的数据。人们希望从这些海量的业务数据中探寻规律、发现知识,以辅助管理决策。然而普
本文针对性的分析现阶段实施的解决网络信息安全的技术,随后对选取的这些技术的局限性进行分析,最后展望网络信息安全的发展趋势,以期可以为网络信息安全提供一定借鉴。