有监督机器学习算法

来源 :科学与技术 | 被引量 : 0次 | 上传用户:harryleexxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:机器学习作为人工智能技术的一个新发展,近年来受到工业界和学术界的极大关注,并广泛应用于计算机视觉,数据挖掘,语音识别等各个领域,其中作为它的最主要部分,有监督机器学习算法也是被广泛应用。本文就有监督机器学习介绍其回归算法与分类算法,阐述了其原理,并阐述其组合应用设计。最后给出对机器学习发展前景的主观预测和总结。
  关键词:人工智能;机器学习;有监督学习;回归算法;分类算法
  引言
  机器学习的研究是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型和认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统。这些研究目标相互影响,相互促进。
  第一个机器学习的定义来自于Arthur Samuel。他将机器学习定义为在进行特定编程环境中进行计算机学习的领域。
  机器学习强调“学习”,而不是程序本身。它使用复杂的算法来分析大量的数据,识别数据中的模式,并作出预测——不需要特定的代码。在样本的数量不断增加的同时,自我纠正完善“学习目的”,可以从自身的错误中学习,提高识别能力。
  在机器学习中,主要有三类;有监督学习,半监督学习和无监督学习。本文主要从有监督学习算法,应用等方面进行概述。
  1 有监督学习算法概述
  1.1 回归算法
  回归算法主要是根据一系列的数据集,假设一系列方程来拟合数据集,选择一种曲线拟合较好的方程作为假设函数,然后通过优化算法选取合适的参数,更好的拟合数据集,完成机器学习过程。
  系统回归算法的主要步骤包括:
  (1)构建M个初始样本,x代表特征/输入变量,y代表目标变量/输出变量,(x,y)代表训练集中的实例。
  (2)将训练样本喂养给我们的学习算法。
  (3)输出一个函数,通常用小写h表示,h代表hypothesis,h表示一个函数。
  (4)输入将要预测的x喂给h,预测出结果作为输出变量y。
  (5)接下来要做的就是判断假设函hypothesis的拟合程度,选择出可以使得建模误差的平方和能够最小的模型参数,即使得代价函数J(θ0,θ1)最小。
  (6)采用梯度下降算法来求出代价函数J(θ0,θ1)的最小值。
  1.2 分类算法
  分类算法即给不同类型的样本点贴上不同的标签,目的是为了确定一个点的类别,而具体有哪些类别是已知的。分类算法经常被用于判断邮件是否为垃圾邮件、判断在线交易是否存在潜在风险、判断肿瘤为良性或者恶性等等。由此可见:
  逻辑回归算法是一种分类分析,它有正向类和负向类,即:y ∈ {0,1},其中0代表负向类,1代表正向类。对一个分类问题:y=0或y=1,可能出现的结果是:hθ(x)>1或<0,就无法进行结果的归纳。此时就需要采用逻辑回归,得到的结果可以满足0≤hθ(x)≤1,逻辑回归是一种特殊的分类算法,同理,更普遍的分类算法中可能有更多的类别,即:y ∈ {0,1,2,3 ...}。
  决策树算法也是一种典型分类算法将变量通过不同属性分为不同组别,基于决策得出结论,获得希望得到的判定结果。决策树包含一个根节点,多个内部节点和多个叶节点,其中叶节点对应于结果,其他节点对应于属性测试。根据属性测试的结果,将样本划分为不同的子节点,最终到达叶节点。决策树使用信息熵的方法来分离节点。信息熵通过 计算,信息熵作为概率的单调函数通过计算反映不确定性。信息增益利用信息熵度量特征分类给系统带来的信息量,然后判断特征划分的依据,进行特征选择划分。
  2 有监督学习算法组合设计
  2.1 回归算法组合设计
  (1)单变量线性回归算法:
  以房屋交易问题为例,假设回归问题的训练集
  如下表所示:
  因为只有一个特征/输入变量,所以这种问题称为单变量线性回归问题。
  接着要做的便是为模型选择合适的参数θ0 和θ1在这个例子中便是选取合适的斜率和截距。所选参数决定了得到的直线相对于训练集的准确程度,以及模型的预测值与训练集的实际值之间的差异(下图竖直方向的黑线所指)就是建模误差。
  接下来就是用梯度下降算法来求解使得代价函最小的θ0和θ1
  (2)梯度下降算法:
  梯度下降算法是求解函數最小值的一种算法,用于求解代价函数J(θ0,θ1)的最小值(θ,θ1)。梯度下降算法的公式如下:
  在梯度下降算法中,所有参数都被学习率减去,同时乘以代价函数的导数。
  梯度下降算法的直观理解就是对θ赋值,使J(θ)沿着梯度下降最快的方向进行,并一直迭代得到局部最小值,其中α是学习率,它决定了沿着使代价函数最大程度下降的方向迈出的步子有多大。当然,α不能太大或太小。
  如果α太小了,即学习速率太小,结果就是只能一点一点的挪动,去努力接近最低点,这样就需要很多步才能接近最低点,所以α太小的话,可能会很慢,因为它需要一点点的挪动,他会需要很多步才能达到全局最有点。
  如果α太大了,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次的越过最低点,直到离最低点越来越远,所以,如果α它会导致无法收敛,甚至发散。
  在梯度下降算法中,当接近局部最优点时,梯度下降法会自动采取更小的幅度,这是因为当接近局部极小值时,很明显导数在局部极小值处等于0,所以当接近局部最极小值时,导数值会自动变得越来越小,因此梯度下降将自动采取较小的幅度,因此没有必要在另外减小α。
  梯度下降算法可以用来最小化任意代价函数J,不只是线性回归中的代价函数J。   (3)线性回归与梯度下降结合:
  接下来,我们需要将梯度下降算法与线性回归相结合,并将其应用于具体的拟合直线的线性回归算法里。
  梯度下降算法与线性回归算法比较如图:
  这种梯度下降我们也称为批量梯度下降,“批量梯度下降”是指在梯度下降的每个步骤中都使用到了所有的训练样本,在梯度下降中,在计算微分导数项时,需要进行求和计算。因此,在每一个梯度下降中,我们最终都需要计算这样一个东西,每个项需要对所有m个训练样本求和。因此,批量梯度下降法这个名字说明了计算最终需要考虑的是所有这一批训练样本,而事实上,有时也有其他类型的梯度下降法,不是这种批量型的,不考虑整个的训练集,而是每次只关注训练集中的一些小的子集。
  2.2 分类算法组合设计
  (1)逻辑回归:
  逻辑回归的算法是目前最流行使用最广泛的一种学习算法,这个算法的性质是:它的输出值永远在0-1之间。
  逻辑回归虽然名字里面带“回归”,但它实际上是一种分类问题,它的模型假设是hθ(x)=g(θTX)
  其中:X代表特征向量,g代表逻辑函数(或称为Sigm
  oid函数),公式为g(z)= ,该函数的图像为:
  求导后得到:
  所以如果有n个特征,也就是:θ=[θ0,θ1,θ2,θ3,···,θn],参数向量θ包括θ0θ1θ2一直到θn那么就可以用以上式子同时更新所有的θ。
  2.3 正则化
  (1)解决过拟合问题
  回归算法和分类算法它们能有效地解决很多问题但当把他们应用到某种特定的机器学习应用时,会遇到过拟合的问题,可能导致他们的效果很差。因此需要采用正则化技术来改善或减少过拟合的问题。
  如果我们有非常多的特征,通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为0),但是可能会不能推广到新的数据。
  解决过拟合主要有两种方法
  (1)减少变量的个数,舍弃一些变量,保留更为重要的变量。但是如果每个特征变量都对预测产生影响。当舍弃一部分变量时,也就舍弃了一些信息。所以希望保留所有的变量。
  (2)正则化:保留所有的变量,将一些不重要的特征权值置为0或权值变小使得特征的参数矩阵变得稀疏,使每一个变量都对预测产生一点影响。
  (3)正则化的思路:
  如果參数对应一个较小的值,那么会得到更加简单的假设。惩罚高阶参数,使他们趋于0,这样就会得到较为简单的假设,也就是得到简单的函数,这样就不易发生过拟合。但是在实际问题中,并不知道哪些是高阶多项式的项,所以在代价函数中增加一个惩罚项/正则化项,将代价函数中所有参数值(约定一般不惩罚j=0,惩罚从j=1开始到j=n)都最小化,收缩每一个参数。
  这样便得到了一个较为简单的能防止过拟合问题的假设:
  其中λ称为正则化参数,如果选择的正则化参数λ过大,则会把所有的参数都最小化导致模型变成hθ(x)=θ0,也就是一条直线,因此又会造成欠拟合,所以对于正则化,要取一个合理的λ值,这样才能更好的应用正则化。
  3 机器学习技术的发展趋势
  从目前的研究趋势来看,未来机器学习的主要研究方向如下:1)人类学习机制的研究。2)开发和改进现有的学习方法,开发新的学习算法。3)建立实用的学习系统,尤其是多种学习算法协同工作的集成系统。4)机器学习理论与应用研究。
  机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统学习能力很小,至多也只有非常有限的学习能力,不能满足科学技术和生产的新要求。机器学习的探讨和机器学习研究的进展,必将推动人工智能和整个科学技术进一步发展。
  4 结论
  机器学习是关于理解和研究学习的内在机制建立能够通过学习自动提高自身水平的计算机程序的理论方法的学科。近年来机器学习理论在诸多应用领域得到成功的应用与发展,已成为计算机科学的基础与热点之一。而且机器学习在人工智能中占有很大的地位,人工智能目前的应用已经证明了人工智能可以改变人类,改变世界,未来在各方面的支持下,人工智能一定会取得长足的发展,对世界产生巨大的影响,随着人工智能的发展,机器学习的进化,对人类的生活带来了极大的便利,智能的发展提高了资源的利用率与生产率,将原始手工的生产方式转化为机器生产,省去了人工劳力。所以机器学习技术的发展将是未来高新技术的前沿,也应是人们努力的方向。
  参考文献
  [1] 陈勇涛,郭晓颖,陶慧杰. 浅谈机器学习研究现状与发展趋势[J]. 中国新通信,2018.
  [2] 刘斌,何进荣,耿耀君,等.并行机器学习算法基础体系前沿进展综述[J]. 计算机工程与应用,2017.
  [3] RAIF B A,BEKIR T L. Influence of fly ash on corrosion resistance and chloride ion permeability of concrete[J]. Construction and building materials,2012,31:258-264.
  [4] 段明赫.人工智能的发展现状及应用[J]. 通讯世界,2018.
  [5] 刘丛,彭敦陆,邬春学. 基于案例的《机器学习》课程教学方法研讨[J].软件导刊,2018.
  [6] 魏烨敏,蒋子元. 机器学习聚类组合算法及其应用[J]. 电子世界,2018.
  [7] 孙晖. 深度学习优缺点的剖析[J]. 电子制作,2018.
  [8] 詹骐源. 机器学习的发展史及应用前景[J]. 科技传播,2018.
  [9] 史加荣,马媛媛. 深度学习的研究进程与发展[J]. 计算机工程与应用,2018.
  (作者单位:郑州大学软件与应用科技学院)
其他文献
摘要:近些年来,科学技术发展日新月异,5G技术将会在未来逐渐走进我们的生活中。5G是全球高新技术发展的典型代表,同时5G网络的建设也是我国实施网络强国战略的重要组成部分。根据最近召开的中央经济工作会议精神,我国正处于5G发展的关键时期,国家将出台一系列的战略来引导5G技术的发展,由此看来,5G技术的研究和发展是十分有意义的。本文主要通过建立数学模型,来探索电信企业和电力企业合作解决5G电费问题的一
期刊
摘要:现如今,我国是科技发展的新时期,地质测绘在地质勘查中是一项极为重要的基础工作,其成果先后贯穿于地质预查、普查、详查、矿产开采等不同阶段,而地质测绘也是一项极其艰辛的体力和脑力双重的工作。由于各时期的目标和任务不同,导致了各个时期坐标系统的选择不统一,给后续工作带来了极大困难,如何合理利用和解决这些问题已摆在我们的面前。随着GPS的出现,测量的技术发生了重大的改革,各种系统的坐标等发生了一系列
期刊
摘要:随着国民经济的不断发展,我国的各类企业也得到了大幅度的提升,其中发展较为迅速的当属石油化工企业,一个国家的发展壮大必定离不开石油化工企业。压力管道作为运输工业石油等各类资源的有效途径,为我们生活带来了很大的便利,下文将就石油化工压力管道涉嫌无损检测质量控制现状及对策进行探讨,以供有关人士交流参考。  关键词:石油化工;压力管道;射线无损检测;质量;对策  引言:  随着我国石油化工业的迅速发
期刊
摘要:目前,随着时代的不断发展,我国的创新才是科学进步的关键所在。对于企业来说,创新产品就是企业的核心竞争力,同时也是占据市场的有利条件。但是,想要实现产品创新,还需要用户对于产品需求的全面把握,能够得到多领域知识、经验以及技术的支撑。并且用户还能够对产品的质量、性能以及价格等需求加以掌握,这样才能够真正的把握市场的脉搏,从而针对需求来研究需求处理以及产品概念设计技术。  关键词:机电产品;需求获
期刊
摘要:随着社会经济及科学技术的飞速发展,新型自动气象站在各气象局得到广泛应用,自DZZ4型自动气象站在盘州市气象局投入使用以来,不仅大大降低了气象观测人员的劳动强度,还使气象观测的效率与质量得到明显提升。然而在其实际运行过程中却出现各种各样的问题,严重制约了气象测报工作的顺利开展。基于此,本文结合盘州市气象局DZZ4型自动气象站的实际运行状况,着重分析了其运行中的常见故障及其处理应对措施,并探讨D
期刊
摘要:回族作为一个历史悠久的古老民族,通过进化基因组学和遗传学结合社会人类学分析基因的起源与变异,可以一定程度上体现长时间跨度下的社会历史变迁及疾病发展。人的每一次繁衍,通过减数分裂的方式产生配子,减数分裂时同源重组现象会随机的将父母各自的染色体重新组合并传递给后代,完成遗传信息传递的同时,也保证了后代的遗传多样性。在族群的演化过程中,这种信息传递过程会积累很多DNA的突变,被称为基因的多态性,以
期刊
摘要:电子整机的装配是指机械安装和焊接,是电子整机生产过程中一个极其重要的环节。要生产出高质量的产品,除精心设计的电路、正确选用元器件及整机结构、零部件的布局要合理外,还要靠优良的装配工艺来保证。本文就电子产品装配过程的工艺控制,论述如何通过工艺控制来保证电子产品最终的质量与可靠性。  关键词:电子产品;装配工艺;可靠性  随着科学技术的发展,信息技术在不断的进步,电子产品在当今社会的各个领域中都
期刊
1.前言  随着办公自动化技术和计算机网络技术的发展和应用,最高检早在2013年就全面上线了全国检察机关统一业务系统,旨在实现业务信息网上录入、业务流程网上管理、业务活动网上监督、业务质量网上考评。根据《全国检察机关统一业务应用系统使用管理办法》的要求,我们要遵循统一配置,全员、全面、全程应用,规范、高效,安全保密二十字方针,以加强对执法办案的全面、实时、动态监督管理,加强信息共享和协作配合,规范
期刊
摘要:重庆荣昌高温频发,对当地社会经济发展、水资源和生态环境造成严重威胁,深入研究该地区高温气候特征及未来变化趋势具有重要的现实意义。本文利用气候趋势分析、Mann-kendall突变检验、小波分析以及R/S趋势分析等多种统计方法对重庆荣昌高温气候特征及未来演变趋势进行分析,结果显示:1)20世纪90年代末荣昌进入显著增暖时期,随增暖速率加快,高温日数呈明显增多趋势,尤其是40℃以上极端高温日数急
期刊
摘要:当今,越来越多的业务应用运行于网络架构之上,保障网络的持续、高效、安全的运行,成为网络管理者面临的巨大挑战。然而,尽管做了周密的部署,配置了严格的安全策略,尽管在网络管理上的投入越来越多,但是网络的问题还是层出不穷。利用网络分析技术快速查找问题根源,在网络出现故障时要做到及时发现网络故障、准确定位网络故障并且能及时排除故障就显得特别重要。  关键词:网络故障;软件漏洞;病毒侵入;诊断分析;解
期刊