论文部分内容阅读
摘 要:本文论述AI目前的智能水平,及AI智能的正确研究思路和方向。
关键词:AI智能;智能感知;智能认知;智能决策
近几年AI圈热闹非凡,各种新闻令人眼花缭乱。但冷静下来想想,图像识别是个黑盒子,自动驾驶常出事故,重大灾难发生时机器人救援效果不佳,万众期待的AI智能迟迟不撩开面纱。那么AI什么时候能拥有智能,并且这种智能是我们人类可以理解,可以相信的呢?
在此描述一下AI智能的正确打开方式,首先从计算机视觉开始讨论。实验心理学家赤瑞特拉做过心理实验证实:人类获取的信息83%来自视觉,11%来自听觉,这两个加起来就有94%。其它途径是嗅觉、触觉和味觉。在人工智能领域,计算机视觉的重要性不言而喻。
现在主流的卷积神经网络,从AlexNet,GoogLeNet,ResNet,到DenseNet,不停变化的神经网络结构,不管有多复杂,整体来看其实只有两层:各个神经元之间的回归函数层,及最后的分类层。回归函数层起到的作用是提取不同层次的特征,最后由分类函数进行相似度计算,得出分类结果。由于提取特征的过程不透明,不可解释,与人类的思考方式不一致,自然就不容易相信。
我们人类观察一个物体或一張图片,历史的经验会起到很重要的参考作用,而对于没有见过的物体通过想象来推理其用处。这是一种学习和推理能力,是智能的一部分,而神经网络显然不是这样的工作方式。
例如看到一张从未见过的猫的图片,我们是从有皮毛的动物,有四肢,有尾巴,脸部形状等来推测。那么AI能不能用类似的方法呢?答案是可以的,已经有团队在尝试。具体请参考[1802.00121] Interpreting CNNs via Decision Trees。
智能的整体架构
对于AI智能,仅仅拥有可解释的观察能力是不够的。整体的AI智能架构包括七层,分别是初始任务、知识和常识、感知和认知、学习人类的价值函数、决策机制、头脑和语言。我们一层一层来解释。
初始任务
初始任务就是AI智能努力的目标。以自然界的一只小松鼠为例,首先要解决的是活下来,要有食物,不要被其它天敌吃掉,长大成熟后找到配偶,抚育下一代,这些就是小松鼠的初始任务。那么一个智能机器人的初始任务可以是家务机器人,可以是运动陪伴机器人,可以是溺水救援机器人等等。这是智能的起点。
知识和常识
常识就是我们在这个世界和社会生存的最基本的知识。它使用频率最高,并且它可以举一反三,推导出并且帮助获取其它知识。包括社会常识和物理常识/视觉常识,例如房间内的物体可以是被地板支撑,可以挂在墙上,可以吊在顶棚等。
感知和认知
在AI智能领域,研究最多的就是智能识别和感知。与当前CV领域三大基本能力不同,智能感知并不是从目标识别、目标定位和目标分割三方面去努力,而是选择了完全不同的道路。
AI智能要做的第一步是二维图像的三维重建,而且是基于单张二维图像的三维重建。这在数学上很难做到,因为三维重建需要双视角的信息输入。但是我们人类有这种能力,看到一张照片就能在脑海里进行三维还原,基本原理就是我们知道每件物品在现实社会里的大小。例如门高80英寸,椅子和小腿高度一样,约16英寸等。
3D重建完成后,对于每一个物品的识别,并不是依赖大量标注好的图片训练,而是从人类视角,推测这个物品我们如何使用。如果可以存放物品,并且高度是人眼的高度,形状是立方体,那就是壁橱。如果从力学角度人坐上去会感觉舒服,那就是椅子,以此类推,而不是简单贴上标签。
识别物体之后,还要理解物体的摆放是否合理和安全。这会影响之后的动作决策。
对于各种容器内的物体或液体,要根据人类的动作和容器的状态进行推理。如果在倒水,那壶里一定是有水的。这里渐渐能看到智能的影子。
对于各种可见不可见的物体识别完之后,如果图像里有人或动物,就可以观察他/她/它在关注什么,知道什么,喜欢什么,猜测之后可能的动作是什么。
上面是对单张图片的感知内容。如果是视频,可以了解更多的信息。
学习人类的价值函数
在一定时间的观察之后,可以得到被观察者做事方式的价值函数,例如喜欢喝啤酒还是饮料?喜欢多互动还是少打扰?喜欢每天扫地一次还是只要有脏东西就要清理?等等。
决策机制
了解了各种物体,了解了被观察者的喜好,为了达成初始任务,AI智能体就能决定自己的具体任务链,例如去开门,去拿啤酒,去打开电视等等。随着仿生机器人的快速发展,已经可以完美写成这些动作。
头脑
为了更好地完成任务,AI智能体需要理解被观察者知道什么,正在做什么,打算做什么等等。还要清楚对方知道什么,对方知道自己知道什么,双方共同知道什么,这是沟通和决定下一步行动的基础。在这个过程中,需要进行沟通,而语言是沟通的一种主要方式。
语言
人类用语言沟通的基础是要完成共同的任务,所以语言是任务驱动的。通过观察和认知,了解这个世界,并且知道自己能做什么,就可以对具体任务进行沟通。这是基于理解的语言,而不是为了说而说。现在自然语言处理领域基本上是从语言开始,到语言结束,与现实社会脱节,成为无源之水。
总结
上面说明的智能,并不是纸上谈兵,已经有很多国际团队在2010年之在致力于AI智能体的实现。电影中描绘的强人工智能离我们还很遥远,但是通用人工智能(Artificial General Intelligence,AGI)时代已经来临!
在通用人工智能时代,计算机视觉、自然语言处理、机器学习都是融为一体的,这个融合剂就是感知(Recognition)和认知(Congnition),或者叫做理解和推理。
让我们拥抱这个时代!
参考文献
[1] M. S. Arulampalam,S. Maskell,N. Gordon,and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP,50(2):174–188,2002.
[2] A. Belardinelli,O. Herbort,and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search,106:47–57,2015.
[3] A. Borji,D. N.Sihite,and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR,pages 470–477,2012.
[4] A. Borji,D. N. Sihite,and L. Itti. What/where to look next? modeling top-down visual attention in complex interactive environments. IEEE TSMCS.,44(5):523–538,2014.
作者简介:王悦林(1973.2—),男,汉族,黑龙江人,本科生,现任职于联想数据智能事务部,研究方向是人工智能。
关键词:AI智能;智能感知;智能认知;智能决策
近几年AI圈热闹非凡,各种新闻令人眼花缭乱。但冷静下来想想,图像识别是个黑盒子,自动驾驶常出事故,重大灾难发生时机器人救援效果不佳,万众期待的AI智能迟迟不撩开面纱。那么AI什么时候能拥有智能,并且这种智能是我们人类可以理解,可以相信的呢?
在此描述一下AI智能的正确打开方式,首先从计算机视觉开始讨论。实验心理学家赤瑞特拉做过心理实验证实:人类获取的信息83%来自视觉,11%来自听觉,这两个加起来就有94%。其它途径是嗅觉、触觉和味觉。在人工智能领域,计算机视觉的重要性不言而喻。
现在主流的卷积神经网络,从AlexNet,GoogLeNet,ResNet,到DenseNet,不停变化的神经网络结构,不管有多复杂,整体来看其实只有两层:各个神经元之间的回归函数层,及最后的分类层。回归函数层起到的作用是提取不同层次的特征,最后由分类函数进行相似度计算,得出分类结果。由于提取特征的过程不透明,不可解释,与人类的思考方式不一致,自然就不容易相信。
我们人类观察一个物体或一張图片,历史的经验会起到很重要的参考作用,而对于没有见过的物体通过想象来推理其用处。这是一种学习和推理能力,是智能的一部分,而神经网络显然不是这样的工作方式。
例如看到一张从未见过的猫的图片,我们是从有皮毛的动物,有四肢,有尾巴,脸部形状等来推测。那么AI能不能用类似的方法呢?答案是可以的,已经有团队在尝试。具体请参考[1802.00121] Interpreting CNNs via Decision Trees。
智能的整体架构
对于AI智能,仅仅拥有可解释的观察能力是不够的。整体的AI智能架构包括七层,分别是初始任务、知识和常识、感知和认知、学习人类的价值函数、决策机制、头脑和语言。我们一层一层来解释。
初始任务
初始任务就是AI智能努力的目标。以自然界的一只小松鼠为例,首先要解决的是活下来,要有食物,不要被其它天敌吃掉,长大成熟后找到配偶,抚育下一代,这些就是小松鼠的初始任务。那么一个智能机器人的初始任务可以是家务机器人,可以是运动陪伴机器人,可以是溺水救援机器人等等。这是智能的起点。
知识和常识
常识就是我们在这个世界和社会生存的最基本的知识。它使用频率最高,并且它可以举一反三,推导出并且帮助获取其它知识。包括社会常识和物理常识/视觉常识,例如房间内的物体可以是被地板支撑,可以挂在墙上,可以吊在顶棚等。
感知和认知
在AI智能领域,研究最多的就是智能识别和感知。与当前CV领域三大基本能力不同,智能感知并不是从目标识别、目标定位和目标分割三方面去努力,而是选择了完全不同的道路。
AI智能要做的第一步是二维图像的三维重建,而且是基于单张二维图像的三维重建。这在数学上很难做到,因为三维重建需要双视角的信息输入。但是我们人类有这种能力,看到一张照片就能在脑海里进行三维还原,基本原理就是我们知道每件物品在现实社会里的大小。例如门高80英寸,椅子和小腿高度一样,约16英寸等。
3D重建完成后,对于每一个物品的识别,并不是依赖大量标注好的图片训练,而是从人类视角,推测这个物品我们如何使用。如果可以存放物品,并且高度是人眼的高度,形状是立方体,那就是壁橱。如果从力学角度人坐上去会感觉舒服,那就是椅子,以此类推,而不是简单贴上标签。
识别物体之后,还要理解物体的摆放是否合理和安全。这会影响之后的动作决策。
对于各种容器内的物体或液体,要根据人类的动作和容器的状态进行推理。如果在倒水,那壶里一定是有水的。这里渐渐能看到智能的影子。
对于各种可见不可见的物体识别完之后,如果图像里有人或动物,就可以观察他/她/它在关注什么,知道什么,喜欢什么,猜测之后可能的动作是什么。
上面是对单张图片的感知内容。如果是视频,可以了解更多的信息。
学习人类的价值函数
在一定时间的观察之后,可以得到被观察者做事方式的价值函数,例如喜欢喝啤酒还是饮料?喜欢多互动还是少打扰?喜欢每天扫地一次还是只要有脏东西就要清理?等等。
决策机制
了解了各种物体,了解了被观察者的喜好,为了达成初始任务,AI智能体就能决定自己的具体任务链,例如去开门,去拿啤酒,去打开电视等等。随着仿生机器人的快速发展,已经可以完美写成这些动作。
头脑
为了更好地完成任务,AI智能体需要理解被观察者知道什么,正在做什么,打算做什么等等。还要清楚对方知道什么,对方知道自己知道什么,双方共同知道什么,这是沟通和决定下一步行动的基础。在这个过程中,需要进行沟通,而语言是沟通的一种主要方式。
语言
人类用语言沟通的基础是要完成共同的任务,所以语言是任务驱动的。通过观察和认知,了解这个世界,并且知道自己能做什么,就可以对具体任务进行沟通。这是基于理解的语言,而不是为了说而说。现在自然语言处理领域基本上是从语言开始,到语言结束,与现实社会脱节,成为无源之水。
总结
上面说明的智能,并不是纸上谈兵,已经有很多国际团队在2010年之在致力于AI智能体的实现。电影中描绘的强人工智能离我们还很遥远,但是通用人工智能(Artificial General Intelligence,AGI)时代已经来临!
在通用人工智能时代,计算机视觉、自然语言处理、机器学习都是融为一体的,这个融合剂就是感知(Recognition)和认知(Congnition),或者叫做理解和推理。
让我们拥抱这个时代!
参考文献
[1] M. S. Arulampalam,S. Maskell,N. Gordon,and T. Clapp. A tutorial on particle filters for online nonlinear/non-gaussian bayesian tracking. IEEE TSP,50(2):174–188,2002.
[2] A. Belardinelli,O. Herbort,and M. V. Butz. Goal-oriented gaze strategies afforded by object interaction. Vision Re-search,106:47–57,2015.
[3] A. Borji,D. N.Sihite,and L. Itti. Probabilistic learning of task-specific visual attention. In CVPR,pages 470–477,2012.
[4] A. Borji,D. N. Sihite,and L. Itti. What/where to look next? modeling top-down visual attention in complex interactive environments. IEEE TSMCS.,44(5):523–538,2014.
作者简介:王悦林(1973.2—),男,汉族,黑龙江人,本科生,现任职于联想数据智能事务部,研究方向是人工智能。