论文部分内容阅读
摘 要:鉴于深度学习的重要性,本文对深度学习研究情况进行了综述。首先介绍了深度学习的概念及深度学习的发展历程;然后总结了深度学习算法在不同数据处理中的最新应用现状及其发展趋势。可以看到:深度学习在不同应用领域都取得了明显的优势,但仍存在需要进一步探索的问题,如无标记数据的特征学习、网络模型规模与训练速度精度之间的权衡、与其他方法的融合等。
关键词:深度学习;研究综述;应用
一、深度学习的概念
2006年,深度學习的概念初次被G.E.Hinton等提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程,Hinton认为,应该先用无监督预训练方法去完善网络权值的初值,之后再进行权值微调,拉开了深度学习的序幕。
二、深度学习发展历程
深度学习最初起源于人工神经网络的研究,旨在通过建立一个多层的网络结构,深度挖掘数据的本质信息(梁军,2015)。之前优化算法和计算速度的限制,使得神经网络研究基本停滞于单个隐层的结构。2006年,多伦多大学的神经网络专家Geoffrey Hinton在“Science”杂志上发表文章“Reducing the dimensionality of data with neural networks”,从此拉开了深度学习研究和应用的序幕。
随着深度学习的广泛应用和热度的提高,很多新的算法被提出。如2010年提出的半监督学习算法,(即判别深度置信网DDBNs),被成功地应用于进行可视化数据分类。之后学者们又提出一种新的深度学习算法(深凸网络Deep Convex Network,DCN),用于语音识别中可扩展的挑战。2013年国内学者又开发了一种半监督学习算法,称为卷积深度网络(Convolutional Deep Networks,CDN)用于深度学习中图像的分类问题。
接下来,我们在深度学习中面临的挑战是破译一个个体的思维和想法,要想完成这种理解能力,首先需要构建可以理解人们感情的算法,然后建立能理解多维度情感的算法。为解决自然领域的情感分析问题,许多新的算法相继被提出,最近,斯担福大学的研究生Richard Socher和Andrew Ng(Google深度学习项目工程师之一)等人共同研究开发了一个深度学习的新算法,即Neural Analysis of Sentiment(NaSent),目的是理解字里行间流露的感情。目前,应用最广的情绪分析是:词袋(bag of words)模型,词袋中的词汇分为正面和负面两个维度,通过计数来判别出整个段落的含义是正面还是负面。
三、深度学习的應用
从2006年至今,深度学习在图像、语音和自然语言处理等各个领域都有很好的研究,使得很多技术任务有了突破性进展。
1.语音识别。微软研究人员提出了隐马尔可夫混合模型(CD-DNN-HMM),该网络是第一个成功应用于大词汇量语音识别系统的深层神经网络,随后又通过在含有300h语音训练数据的Switchboard标准数据集上,对CD-DNN-HMM模型进行了评测。(尹宝才等,2015)。H.Zen等以由一名女性专业演讲者以美国英语录制的3.3万段语音素材为训练数据,提出一种基于多层感知机的语音合成模型。K.Cho等提出一种基于循环神经网络(recurrent neural network,RNN)的向量化定长表示模型(RNNenc模型),应用于机器翻译。
在语音识别任务上,深度学习完全超越了传统的最好算法,大幅度提高了语音识别的准确率。一些拥有语音识别业务的公司,如百度、Google、微软等,也都使用深度学习技术来改善自己的语音识别系统。最近,深度学习在自然语言处理的研究中也同样火热。比较有代表性的工作和成功应用有主题模型、词向量、情感分析、机器翻译等。除此之外,深度学习还在电影推荐、运动识别、音乐检索等任务上发挥着重要的作用。
2.计算机视觉。深度学习在计算机视觉上的成功应用,主要体现在对象识别和人脸识别领域上。2010 年人们引入大数据集,例如ImageNet数据集中有着15百万的标记高分辨率图像和超过2万2千个类别。A.Krizhevsky 等在2012年通过训练一个大的深度神经网络来对ImageNet LSVRC-2010中包含着1000个不同类别的1.2百万个高分辨率图像进行分类,刷新了这个数据集的最好记录。2014年Sun等提出了深度隐藏身份特征(deep hidden identity feature,DeepID) 的方法去学习高等级特征表征来进行人脸识别。
3.自然语言处理。自然语言处理( natural language processing,NLP)意在将人类语言转换到能够容易地被计算机操作的表征的过程。2008年R.Collobert等通过将一个普通的深度神经网络结构用于NLP,在“学习一个语言模式”和“对语义角色标签”任务上通过将重点关注到语义角色标签的问题上进行了没有人工设计特征参与的训练,其错误率为14.3%的结果刷新了最好记录。
4.信息检索。信息检索(information retrieval,IR)就是用户输入一个查询到一个包含着许多文档的计算机系统,并从中取得与用户要求所需最接近的文档。深度学习在IR的应用主要是通过提取有用的语义特征来进行子序列文档排序, 2014年Shen Yelong等提出了卷积版的深度结构语义模型(convolutional deep-structured semantic modeling,C-DSSM),C-DSSM能将上下文中语义相似的单词通过一个卷积结构投影到上下文特征空间向量上,从之前43.1%的准确率提高到了44.7%。
不同于以往浅层结构只能解决许多简单的或者许多约束条件下的问题,深度结构能够处理许多复杂的真实世界中的问题,例如人类语音、自然声音和语言、自然图像、可视场景等问题,它们可以直接从数据中提取数据所包含的特征而不受具体模型的约束,从而更具有泛化能力。
四、深度学习研究展望
深度学习算法在计算机视觉(图像识别、视频识别等) 和语音识别中的应用,尤其是大规模数据集下的应用取得突破性的进展,但仍有以下问题值得进一步研究:
1.无标记数据的特征学习。现实世界存在有海量的无标记数据,将这些无标记数据逐一添加人工标签,是不现实的。所以,随着数据集和存储技术的发展,无标记数据的特征学习将越来越重要。
2.模型规模与训练速度、训练精度之间的权衡。一般我们认为,相同数据集下,模型规模越大,训练精度越大,训练速度会越慢。故而,如何在保证一定的训练精度的前提下,使训练速度提高,将是深度学习方向研究的课题之一。
3.与其他方法的融合。从上述应用实例中可发现,单一的深度学习方法,往往并不能带来最好的效果,要想提高精确度,需要融合多种方法进行平均打分。因此,有必要将深度学习方法与其他方法进行融合。
参考文献:
[1]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,(1):48-59.
[2]梁军等.基于深度学习的微博情感分析[J].中文信息学报, 2015,28(5):155-160.
作者简介:
马瑜璠(1989—),女,汉族,山西运城,硕士研究生,山西财经大学会计学院,审计理论与实务。
关键词:深度学习;研究综述;应用
一、深度学习的概念
2006年,深度學习的概念初次被G.E.Hinton等提出,指基于样本数据通过一定的训练方法得到包含多个层级的深度网络结构的机器学习过程,Hinton认为,应该先用无监督预训练方法去完善网络权值的初值,之后再进行权值微调,拉开了深度学习的序幕。
二、深度学习发展历程
深度学习最初起源于人工神经网络的研究,旨在通过建立一个多层的网络结构,深度挖掘数据的本质信息(梁军,2015)。之前优化算法和计算速度的限制,使得神经网络研究基本停滞于单个隐层的结构。2006年,多伦多大学的神经网络专家Geoffrey Hinton在“Science”杂志上发表文章“Reducing the dimensionality of data with neural networks”,从此拉开了深度学习研究和应用的序幕。
随着深度学习的广泛应用和热度的提高,很多新的算法被提出。如2010年提出的半监督学习算法,(即判别深度置信网DDBNs),被成功地应用于进行可视化数据分类。之后学者们又提出一种新的深度学习算法(深凸网络Deep Convex Network,DCN),用于语音识别中可扩展的挑战。2013年国内学者又开发了一种半监督学习算法,称为卷积深度网络(Convolutional Deep Networks,CDN)用于深度学习中图像的分类问题。
接下来,我们在深度学习中面临的挑战是破译一个个体的思维和想法,要想完成这种理解能力,首先需要构建可以理解人们感情的算法,然后建立能理解多维度情感的算法。为解决自然领域的情感分析问题,许多新的算法相继被提出,最近,斯担福大学的研究生Richard Socher和Andrew Ng(Google深度学习项目工程师之一)等人共同研究开发了一个深度学习的新算法,即Neural Analysis of Sentiment(NaSent),目的是理解字里行间流露的感情。目前,应用最广的情绪分析是:词袋(bag of words)模型,词袋中的词汇分为正面和负面两个维度,通过计数来判别出整个段落的含义是正面还是负面。
三、深度学习的應用
从2006年至今,深度学习在图像、语音和自然语言处理等各个领域都有很好的研究,使得很多技术任务有了突破性进展。
1.语音识别。微软研究人员提出了隐马尔可夫混合模型(CD-DNN-HMM),该网络是第一个成功应用于大词汇量语音识别系统的深层神经网络,随后又通过在含有300h语音训练数据的Switchboard标准数据集上,对CD-DNN-HMM模型进行了评测。(尹宝才等,2015)。H.Zen等以由一名女性专业演讲者以美国英语录制的3.3万段语音素材为训练数据,提出一种基于多层感知机的语音合成模型。K.Cho等提出一种基于循环神经网络(recurrent neural network,RNN)的向量化定长表示模型(RNNenc模型),应用于机器翻译。
在语音识别任务上,深度学习完全超越了传统的最好算法,大幅度提高了语音识别的准确率。一些拥有语音识别业务的公司,如百度、Google、微软等,也都使用深度学习技术来改善自己的语音识别系统。最近,深度学习在自然语言处理的研究中也同样火热。比较有代表性的工作和成功应用有主题模型、词向量、情感分析、机器翻译等。除此之外,深度学习还在电影推荐、运动识别、音乐检索等任务上发挥着重要的作用。
2.计算机视觉。深度学习在计算机视觉上的成功应用,主要体现在对象识别和人脸识别领域上。2010 年人们引入大数据集,例如ImageNet数据集中有着15百万的标记高分辨率图像和超过2万2千个类别。A.Krizhevsky 等在2012年通过训练一个大的深度神经网络来对ImageNet LSVRC-2010中包含着1000个不同类别的1.2百万个高分辨率图像进行分类,刷新了这个数据集的最好记录。2014年Sun等提出了深度隐藏身份特征(deep hidden identity feature,DeepID) 的方法去学习高等级特征表征来进行人脸识别。
3.自然语言处理。自然语言处理( natural language processing,NLP)意在将人类语言转换到能够容易地被计算机操作的表征的过程。2008年R.Collobert等通过将一个普通的深度神经网络结构用于NLP,在“学习一个语言模式”和“对语义角色标签”任务上通过将重点关注到语义角色标签的问题上进行了没有人工设计特征参与的训练,其错误率为14.3%的结果刷新了最好记录。
4.信息检索。信息检索(information retrieval,IR)就是用户输入一个查询到一个包含着许多文档的计算机系统,并从中取得与用户要求所需最接近的文档。深度学习在IR的应用主要是通过提取有用的语义特征来进行子序列文档排序, 2014年Shen Yelong等提出了卷积版的深度结构语义模型(convolutional deep-structured semantic modeling,C-DSSM),C-DSSM能将上下文中语义相似的单词通过一个卷积结构投影到上下文特征空间向量上,从之前43.1%的准确率提高到了44.7%。
不同于以往浅层结构只能解决许多简单的或者许多约束条件下的问题,深度结构能够处理许多复杂的真实世界中的问题,例如人类语音、自然声音和语言、自然图像、可视场景等问题,它们可以直接从数据中提取数据所包含的特征而不受具体模型的约束,从而更具有泛化能力。
四、深度学习研究展望
深度学习算法在计算机视觉(图像识别、视频识别等) 和语音识别中的应用,尤其是大规模数据集下的应用取得突破性的进展,但仍有以下问题值得进一步研究:
1.无标记数据的特征学习。现实世界存在有海量的无标记数据,将这些无标记数据逐一添加人工标签,是不现实的。所以,随着数据集和存储技术的发展,无标记数据的特征学习将越来越重要。
2.模型规模与训练速度、训练精度之间的权衡。一般我们认为,相同数据集下,模型规模越大,训练精度越大,训练速度会越慢。故而,如何在保证一定的训练精度的前提下,使训练速度提高,将是深度学习方向研究的课题之一。
3.与其他方法的融合。从上述应用实例中可发现,单一的深度学习方法,往往并不能带来最好的效果,要想提高精确度,需要融合多种方法进行平均打分。因此,有必要将深度学习方法与其他方法进行融合。
参考文献:
[1]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,(1):48-59.
[2]梁军等.基于深度学习的微博情感分析[J].中文信息学报, 2015,28(5):155-160.
作者简介:
马瑜璠(1989—),女,汉族,山西运城,硕士研究生,山西财经大学会计学院,审计理论与实务。