论文部分内容阅读
随着信息技术、计算机和互联网技术的飞速发展,信息资源迅速膨胀。如何有效地组织、管理和使用信息,已成为当今信息用户面临的主要问题。文本自动分类技术的发展能够提高信息的处理效率,节约人工处理时间,方便用户的使用,近年来得到了广泛的关注和快速的发展。文本自动分类是信息检索与数据挖掘研究领域的热点方向,它是机器学习和自然语言处理的关键技术之一。但各种主流的分类方法都只能为文本分配一个或多个标签类别,而不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,针对文本分类自动化处理技术开展研究,主要工作包括以下几个方面:1、提出了一种基于主次标签的多标签分类方法(MLTCPSL),该方法针对具有主次标签的多标签分类问题中标签关系相互独立、主次权重有别、数量要求不一的特点,将问题分解为求解主标签的多类单标签分类和求解次标签的多类多标签分类两个问题,实现了多标签分类中主、次标签的自动识别。2、提出了一种基于基准分类器和决策门限优化方法,有效解决大规模文本数据多类分类中类别不均衡问题,提高了分类器的精度,主标签处理准确率达到90%,次标签准确率达到80%。3、设计实现了MLTCPSL的自动更新方法,通过对SVM进行在线式改造,使之具备自适应更新模型能力,从而使算法具备自学习能力。