【摘 要】
:
随着信息技术与云计算技术的快速发展,采用云端集中处理海量用户数据的模式日益普及。线上数据流具有海量性、时变性、快速性等特点,传统机器学习算法虽能实现大数据分析,但模型训练依赖批量学习法,需要大量计算、存储资源,无法满足在线场景需求。增量学习对于线上数据流具有快速学习、无需重新训练等特性,是解决该难题的有效方法之一。然而,现有增量学习算法存在表示能力弱、无法对抗数据分布偏移等缺陷。因此,本文基于宽度
论文部分内容阅读
随着信息技术与云计算技术的快速发展,采用云端集中处理海量用户数据的模式日益普及。线上数据流具有海量性、时变性、快速性等特点,传统机器学习算法虽能实现大数据分析,但模型训练依赖批量学习法,需要大量计算、存储资源,无法满足在线场景需求。增量学习对于线上数据流具有快速学习、无需重新训练等特性,是解决该难题的有效方法之一。然而,现有增量学习算法存在表示能力弱、无法对抗数据分布偏移等缺陷。因此,本文基于宽度学习算法,针对上述缺陷研究改进方案,提出一种基于互信息神经网络的宽度增量学习模型。首先,针对现有增量模型表示能力弱的问题,提出一种新的无监督特征工程构建方案——互信息神经网络(Mutual Information Neural Network,MNN),它是首个单独使用互信息函数作为损失函数的深度网络模型,内部包含两个判别子网络简化求解高维向量间的互信息计算。本文选取7个公开数据集,对比该方法与现有算法在4类分类器上的表现。与现有算法相比,MNN提取的特征工程稳定性强,训练时间缩短60-80%,平均准确性高出1.5-4.5%。实验结果表明,MNN能够快速构造具备较强表示能力的特征工程,契合于在线增量场景。其次,针对现有方法无法对抗数据分布偏移的问题,本文基于宽度学习算法,采用MNN及其线性映射集合代替原有网络结构,并提出随机衰减因子分配方案,改善权重线性相关现象,构建互信息神经网络——宽度增量学习系统。并模拟人体活动识别与图像传输分类两个在线增量场景,选取3种增量算法进行性能对比验证。实验结果表明,相较于现有算法,本文方法的准确性优势由初始的0.8-1%,至结束时提升到4-5%。其增量时间相较宽度学习高出约30%,是其他算法的40-80%。可得改进模型利用可承受的时间损耗,换来了准确性与抗过拟合性能的提升。研究表明,本文提出的增量算法在模型表示能力与对抗数据分布偏移方面优于现有模型,并具备一定的速度优势。这项工作在需要处理复杂数据的在线增量学习场景具有使用价值。
其他文献
MoVTeNb氧化物是最具潜力的丙烷氨氧化制丙烯腈反应的催化剂。该催化剂的制备工艺和制备参数对其中的M1/M2相组成和丙烷氨氧化催化性能有很大的影响。同时,在高温或高氧气氛下M2相的结构相对于M1相更容易被破坏,无法满足严苛的工业应用条件。而单独的M1相MoVTeNb氧化物催化剂(M1相催化剂)也可实现丙烷氨氧化制丙烯腈过程,也更适合于该过程高温高氧的严苛条件,但M1相催化剂表面的深度氧化活性位点
目的:本研究通过研究过表达/敲低白血病抑制因子(Leukemia Inhibitory Factor,LIF)对肝癌细胞生物学影响,在体内外探讨LIF表达水平对肝癌发生发展的作用。方法:1.构建LIF基因的载体,将慢病毒感染LIF过表达肝癌细胞株培养增殖,研究细胞功能试验,比如Transwell、CCK8增殖实验、平板克隆形成实验、细胞划痕实验,裸鼠皮下移植瘤实验等,分别检测过表达LIF对肝癌细胞
心音信号的分割与分类研究是心音信号的研究热点。一方面,通过对心音信号的分割可以获得其各个状态的信息,对心脏的健康状况作出初步评估;另一方面,针对心音信号分类的研究,分割是分类研究的重要突破口。隐半马尔科夫模型(Hidden Semi-Markov Model,HSMM)是一种常用于心音分割的模型,但该方法需要加入了各个状态的预测时间,且在长周期和不规律窦性心律的情况下会出现错误。深度学习的方法直接
乙炔选择性加氢催化剂是催化剂设计中具有挑战性的领域之一。几种催化剂的反应机制和结构功能研究已经有相关报导。在这里,我们报道了我们对Pd/ZnAl2O4催化剂的研究,与PdZn纳米粒子相比,这种催化剂对乙炔选择性加氢具有高活性和高乙烯选择性。在我们的工作中,通过等体积浸渍法在ZnAl2O4尖晶石上制备了 Pd/ZnA12O4催化剂。研究了还原条件、Pd负载量和载体对催化剂催化性能的影响。由催化剂的表
近年来,随着生物学研究的不断深入,寡糖和糖缀合物在生物学上的重要作用逐渐被发现。合成和制备结构明确的寡糖和糖缀合物作为分子工具来满足生物学研究的需要,已成为了糖化学研究的主要任务。在寡糖合成中,由于糖基受体上存在多个羟基,且都可以作为糖基化偶联的潜在位点,所以无法避免的遇到如何控制受体偶联位点的问题。传统的方法是采用保护基策略;而利用受体羟基活性的差别,采用少保护或不保护的受体偶联策略(区域选择性
目的肿瘤的生成与生长和血管有着不可分割的关系。而目前已发现核受体亚家族 2F 组成员 2(nuclear receptor subfamily 2 group F member 2,NR2F2)与前列腺癌、结肠癌、乳腺癌、胰腺癌等多种癌症的发生与进展有关,并在胰腺癌、乳腺癌等多种动物模型当中表现出促进肿瘤中血管的生成。但在膀胱癌中的研究甚少。因此,该研究希望发现膀胱癌与NR2F2的关系,并从基因层
生物多样性持续下降是全人类共同面临的重大挑战,栖息地丧失是造成生物多样性下降的主要因素。目前,栖息地丧失与生物多样性下降的关系在物种层面得到广泛关注,尤其是对种—面积关系及基于此基础上的物种灭绝率问题的探讨,但栖息地丧失在遗传层面的影响尚未阐明。本研究以濒危物种水杉(Metasequoia glyptostroboides)的野生种群为研究对象,参照物种—面积关系的原理,在采集全部个体的基础上,结
目的:超声心动图是诊断川崎病患者冠状动脉病变的主要方法。冠状动脉内径是评价冠状动脉病变程度的关键。以往是直接测定冠状动脉内径来评价冠状动脉扩张的程度,这一定量方法受包括人种、身高、体重及体表面积增加的变化等多种因素在内的影响。为了避免这些因素对冠状动脉内径的影响,国内外研究标准化的Z值来评估冠状动脉变化情况。目前国内常用5种Z值公式计算方法,包括来自国外的有日本、美国Z值计算方法,来自国内的有深圳
目的:在无疫苗情况下为耐药和疗效差的HIV感染患者和HIV高危人群研发可替代药物的或暴露前用药物。方法:通过MOE软件对具有肟、肟醚及肟酯结构的26个化合物进行对接打分,虚拟筛选出针对膜蛋白多靶点的抑制HIV-1进入抑制剂候选化合物。通过Cell Counting Kit-8试剂盒检测化合物对TZM-bl细胞的毒性。采用TZM-bl/HIV-1IIIB体外细胞模型确定化合物对HIV-1病毒的抑制作
激光二极管(Laser Diode,LD)泵浦的被动调Q拉曼微片激光器,不仅可以降低热效应的负面影响使得激光器的光学转换效率得到相应的提高,而且可以拓宽光谱范围,使得输出光中包含晶体增益介质本身无法直接获得的激光波长。本文首先介绍了多波长拉曼微片激光器的研究背景和潜在的应用价值,介绍了固体微片激光器产生多波长的各种方法,提出了在采用被动调Q技术的激光腔内利用YVO4晶体中多个拉曼频移实现多波长拉曼