【摘 要】
:
随着互联网和大数据技术的发展,许多应用领域如新闻检索、淘宝购物和银行交易等产生海量的流式数据。不同于传统数据挖掘任务中采用的静态数据,这些数据流具有海量、快速、标签缺失、概念漂移或概念演化的特点,同时,由于存在多标记加剧类不平衡与类标签噪声问题,使得数据流的分类研究工作面临巨大挑战。因而如何从标签缺失的数据流中高效精准地挖掘潜在的、富有价值的信息成为数据流分类问题研究的重要任务之一。本文旨在充分利
【基金项目】
:
国家重点研究计划项目“大数据知识工程基础理论及其应用研究”(No.2016YFB1000901); 国家自然科学基金面上项目“面向多标记文本数据流分类方法研究(No.61976077);
论文部分内容阅读
随着互联网和大数据技术的发展,许多应用领域如新闻检索、淘宝购物和银行交易等产生海量的流式数据。不同于传统数据挖掘任务中采用的静态数据,这些数据流具有海量、快速、标签缺失、概念漂移或概念演化的特点,同时,由于存在多标记加剧类不平衡与类标签噪声问题,使得数据流的分类研究工作面临巨大挑战。因而如何从标签缺失的数据流中高效精准地挖掘潜在的、富有价值的信息成为数据流分类问题研究的重要任务之一。本文旨在充分利用半监督分类模型的优势,针对单标记与多标记数据流的标签缺失等问题开展分类方法研究,主要研究工作包括:(1)针对单标记数据流中标签缺失、概念漂移以及概念演化等问题,提出一种单标记数据流半监督分类方法。该方法利用少量的标记数据构建半监督的分类模型。同时,为了检测概念演化问题,该方法借助“簇内聚集和簇间稀疏”的性质,判断新到来的数据是否是新类数据实例;另外,为了检测隐藏的重现概念漂移问题,所提方法采用检测机制跟踪置信分数窗口的显著变化,计算漂移前后分布的距离判断重现概念漂移。大量实验结果表明:与经典的单标记数据流半监督分类方法相比,所提方法不仅具有较高的分类精度,而且能够有效地检测其中隐含的重现概念漂移和概念演化。(2)针对多标记数据流中标签缺失、概念漂移以及由于多标记加剧的类不平衡及标签噪音等问题,提出一种多标记半监督数据流分类方法。该方法首先利用有限的标记数据构建初始分类模型。为了适应多标记数据流条件下多种概念漂移(即异构概念漂移),该方法采用自适应滑动窗口机制适应异构概念漂移;同时,为了解决数据流由于多标记加剧的标签噪音和类不平衡问题,该方法采用了一种量化的错误惩罚机制,从窗口中删除受标签噪音污染的数据和导致类不平衡的数据,从而动态调整窗口中的数据分布。大量实验结果表明:与经典的多标记分类方法与多标记数据流分类方法相比,所提方法对异构概念漂移、标签噪音和类不平衡问题具有很好的鲁棒性,且在不同的标签缺失情况下,能够保持较高的分类精度。
其他文献
老年人口的快速增加是一个迫切的社会问题。近些年来,科研人员在研究如何能够让老人在家中安全养老付出过很多努力。研究发现,行为识别是判断一个人是否具有生活自理能力的重要评估方法。该方法通过监测老人的行为可以得知其认知水平和健康状况,并在必要时能够及时做出预警。这对于提高老人的健康水平和居家生活质量至关重要。然而,要想能够尽可能准确识别老人的行为,至少需要准确的数据、合适的特征和符合老人活动规律的模型。
无线传感器网络(Wireless Sensor Network,WSN)常被应用于灾害预警、医疗监测、工农业生产、国防军事等各个领域。在WSN中,一方面节点电池容量有限导致网络寿命有限,另一方面广播特性使得通信干扰严重、吞吐量低,这两点是制约WSN大规模部署的重要因素,然而这两个问题相重叠使得系统模型更为复杂。为了有效提高网络吞吐量、延长网络寿命,本文提出将串行干扰消除(Successive In
化工园区作为一个易燃、易爆、有毒重大危险源高度集中的区域,一旦发生火灾、爆炸或毒物泄漏扩散等事故,将造成一系列的连锁反应,并产生灾难性的后果。为此,利用大数据、人工智能等高新技术提高化工园区风险感知、监测预警、协同救援和应急处置的能力,已成为新发展格局下的重点领域之一。其中,化工园区应急物资分配是开展危化品事故应急救援的基础,是体现化工园区应急管理能力的一个基本要素。主要研究在危化品事故发生后,如
高分辨率SAR(Synthetic Aperture Radar)图像在卫星遥感、灾害监测等领域具有重要实际研究应用价值,但实际SAR成像分辨率往往难以满足应用需求。传统SAR图像超分辨率重建方法对模型和先验知识要求较高,重建效果往往不理想;无监督式生成对抗网络模型通过训练学习高低分辨率图像之间映射关系,减少先验知识依赖,重建图像效果明显优于传统方法,但博弈对抗式训练方法往往会使重建图像产生“伪影
互联网的迅速普及打破了信息传播的专业门槛,使得越来越多的人们可以通过社交媒体方便地获取信息、分享和表达观点,这极大的丰富了人们的日常生活。然而,由于社交媒体的用户数量巨大,出于各种目的捏造的虚假新闻层出不穷。再者,随着技术的进步,虚假新闻不再单纯的以文本的形式传播,更多是通过文本、图片和视频结合的方式进行扩散,极大地增强了虚假新闻的迷惑性,也使得以往仅仅依赖文本内容进行分析的虚假新闻检测方法不再适
随着人们对于自身安全以及公共安全的日益重视,视频监控系统遍布世界各地。海量的视频数据得以保存,如何快速地且智能化地分析和处理视频监控系统拍摄到的视频以及图像数据,是当下亟待解决的问题。作为智能监控系统中的一种不可或缺的技术,行人重识别(person Re-identification,Re-ID)受到了学术界的重视,其主要任务是在跨摄像头视域下匹配同一目标行人。近年来,随着深度学习技术的逐渐成熟,
遥感图像分割是理解遥感图像的基础,在防灾减灾、环境治理以及城市规划等领域有着重要作用。在过去,人们常常使用与图像分割有关的传统方法来处理遥感图像。传统的图像分割方法不管是在分割的精度还是分割的效率都是很低的。近年来,随着深度学习在计算机视觉领域的广泛应用,尤其卷积神经网络的在提取特征的显著优势,使得图像在分割的速度和精度上都得到了很大的提升。同时,基于深度学习的模型可以实现便捷的端到端的训练学习。
随着互联网,尤其是移动互联网的快速发展,人们在互联网上留下了的大量包含情感信息的评论。对海量用户评论进行文本情感分析,可以挖掘出人们对产品、服务的真实情绪、态度和意见。这些信息有利于消费者做出选择以及商家、服务平台对产品服务进行优化,尤其是用户评论中被消极评价的意见目标,简称消极情绪意见目标。抽取用户评论中消极情绪意见目标,可以帮助商家更有针对性的改进自身产品或服务中的问题,帮助消费者了解产品或服
领域适应方法由于能够有效克服传统机器学习中需获取大量标签和模型重新训练的问题,成为近年来的热门研究问题之一。领域适应方法利用源领域中潜在的信息为目标领域训练一个高置信度的分类器。自动编码器由于具有健壮的特征表示能力,成为领域适应任务中的常用模型之一,并取得了很好的效果。尽管基于自动编码器的领域适应方法具有较强的泛化能力,但在实际应用中仍存在一定的不足,如在训练新的特征空间时边缘降噪自动编码器(m
随着遥感技术的发展,遥感数据融合受到广泛关注。其中,高光谱与多光谱图像融合是一个研究热点。高光谱与多光谱图像融合的目的是获得一幅高空间分辨率高光谱图像,解决直接从传感器获取的高光谱图像空间分辨率低的问题。融合的任务是在保证较低光谱畸变的同时增强图像的空间信息。基于此,本文通过字典学习的方法对融合算法进行研究。本文在现有优秀算法的基础上,通过分析目前融合结果普遍存在的问题,提出两种基于字典学习的融合