阿尔法狗是只什么“狗”

来源 :知识窗 | 被引量 : 0次 | 上传用户:fannao3562
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2017年5月,千年水乡乌镇迎来了一场举世瞩目的围棋峰会,世界第一的中国九段棋手柯洁以0︰3输给了阿尔法狗。中国围棋协会向阿尔法狗授予中国职业九段称号,这是中国迄今为止最年轻的九段。早些时候,聂卫平曾评价阿尔法狗的围棋水平相当于职业围棋二十段。
  阿尔法狗是什么?它是由英国谷歌深度学习部门开发出来的围棋人工智能程序,是迄今为止最强大的围棋棋手,让我们看看它是如何下围棋的。
  围棋的难在于如何分析看似无限的信息与可能。在一局围棋中,平均每一步围棋的下法大约有200种可能,棋盘上可能出现的局面总数远大于宇宙中原子的总数。要想通过暴力、直接手段预测所有情况,并从中筛选出最优走法的思路并不可行。阿尔法狗在围棋中取胜的秘诀有三个:深度神经网络、监督/强化学习、蒙特卡罗树搜索。
  深度神经网络是一种模拟人类思维方式的计算机神经网络,它可以通过大量数据信息,寻找到最合适的解决方式和算法。阿尔法狗包含两种深度神经网络:数值网络和策略网络。数值网络是对于盘面优势的判断机制,它计算预测每种不同下法带来的胜率变化。如果在试走两三步棋后,發现胜率不足,就会放弃这个走法,改试其他可能。这使得阿尔法狗能够明晰局势判断,左右全局“战略”,抛弃不合适的路线,可有效减少分析深度;而策略网络则是学习人类的棋谱,通过分析数十万个棋谱,选出20个胜率最高的下一步走法。这使得阿尔法狗能够优化每一步落子,减少失误,有效地减少分析广度。两者结合,使阿尔法狗在有限时间内做出更多棋步运算,从而不需要过于庞大的计算也能够走出精妙的棋局。
  监督学习和强化学习是机器学习方式的两种不同种类。监督学习是指机器通过人类输入信息进行学习;强化学习是指机器对自身收集环境中的相关信息作出判断,并成为自己的“经验”,这有些类似于人类的思维方式。在初始阶段,阿尔法狗收集大量棋局数据,学习人类棋手的下法,形成自己的判断。之后,在自己与自己不计其数的模拟对弈,以及每一次与人类棋手的对弈中,阿尔法狗都能根据结果总结分析生成新范式,实现自我下棋技能的提升。
  蒙特卡洛树是一种搜索算法。人工智能在利用它进行决策时,会从根结点开始不断选择分支子结点,通过不断决策使游戏局势向人工智能预测的最优点移动,直到模拟游戏胜利。人工智能每一次的选择都会同时产生多个可能,它会进行仿真运算,推断出可能的结果,再选择出最优方案。
  依靠这三大“武器”,阿尔法狗成为目前人类制造出来的最优秀的围棋“棋手”。
  不过,比赛结果出来后,除了对阿尔法狗的赞扬外,也有另外一种声音。有一些人,甚至包括科技界的大佬,认为阿尔法狗和人类比赛其实并没有太大意义,就好像开着汽车和人赛跑一样,失去了比赛的乐趣。事实上,从竞技的角度上来讲,阿尔法狗的获胜意义也许不大,但从科学技术这个角度来说,它却有着深远意义:阿尔法狗的诞生意味着人们对人工智能的探索已经到达了一个新阶段,而阿尔法狗的学习模式,将被推广到各种已知领域,譬如面孔识别、语音识别等,并且将来也许还能在其他未探索领域中,带来颠覆性的革命。
其他文献
提起黑客的危害,许多人想到的是网站瘫痪、电脑中毒、账号被盗。然而随着“智能化”进程的不断加快,不甘寂寞的黑客已经展开了新一轮的侵略……  黑客捣鬼,ATM机吐钞  2015年2月16日,世界知名反病毒机构卡巴斯基实验室发布了一则报告,指认跨国黑客团体从全球30多家银行“盗取”了总额为10亿美元的资金。黑客作案的工具正是我们经常打交道的ATM机。  首先,黑客向银行工作人员发送了包含病毒的电子邮件,
当手机运行不畅,甚至死机时,你是不是会关机,然后重新启动一次?那么,同样是重新启动手机,重启和关机再开机有什么区别呢?  重启比关机再开机更迅速。两者的区别可以简单地理解为,关机再开机需要引导系统,重启则不需要。因为重启比关机再开机省去了很多步骤,所以它比关机再开机的速度明显要快。  重启比关机再开机更省电。手机关机再开机是对整个硬件、系统进行重新检测,在这个过程中,CPU全速运行,过程较慢。而重
位于印度卡纳塔克邦境内的西高止山脉毗邻印度洋,直面海上吹来的热带季风,气候宜人,降水充足,动植物资源丰富,有些物种是当地独有的。其中,最为独特,也鲜为人知的,要数一种浑身亮紫色,胖乎乎、圆滚滚,活像一个饱满李子的尖鼻蛙。  尖鼻蛙又名印度紫蛙,常年生活在地下,每年只在5月雨季来临时才会爬出地面繁殖。雄蛙会在黑夜里鸣叫求偶,吸引雌蛙前来,然后将大约3000枚蛙卵产在溪流里的岩石缝隙中,最后重返地穴蜗
1821年5月5日,拿破仑·波拿巴逝世于圣赫勒拿岛,终年52岁。有关这位伟人的死因,众说纷纭。传言,他死于砷中毒。因为在他遗留的头发和指甲中都检测出过量的砷化物。但拿破仑是怎样接触到这种有毒物质的呢?  历史考证的结果,“下毒者”其实不是拿破仑的监管人,也不是他的敌人或侍从,而是他居所里的地毯、布幔、壁紙和油漆缓慢挥发导致的。根据法国符号历史学家米歇尔·帕斯图罗在《色彩列传:绿色》中的说法,“施韦
美国卡内基·梅隆大学研究出一款神奇喷雾,不受物体大小和形状的限制,只需简单的喷一喷,就能把所有物体都变成触摸屏。这种喷雾叫作Electrick,由具有导电性能的碳基材料构成。  在物体上喷上这一导电喷雾,电极应用于物体上,然后测量不同点上的电压,就能追踪到人手指触碰的位置。比如将喷霧或喷漆应用于桌子上,你就能够获得特定的触感位置,触碰这些位置,你就能打开你电脑上的软件。  这种喷雾能使各式各样的表
2018年春天,一支清澈明朗的学生合唱团火遍了全国,他们把阿卡贝拉无伴奏多声部合唱方式与身体打击乐结合起来,不仅让人耳目一新,而且被人民日报官方微博盛赞为天籁,更把人们的思绪拉回到了青葱校园。  这支合唱团就是厦门六中合唱团,14名成员全都是“00后”的初一学生。舞台上,他们每人一桌一椅,与在教室里读书没有两样,可他们合唱的《稻香》却别样可人,没有乐队,没有伴舞,只是借助一个水杯,两手交替击打桌子
“不拘一格降人才”是清末思想家龚自珍在清朝政府死气沉沉、保守僵化的情形下发出的吁叹,他希望朝廷打破旧框子,任用各种各样的人才来振兴国家。  “不拘一格降人才”, 强调的是不依常规用人的“人才”环境,“降”是他人的任用和选择;“不拘一格即人才”肯定的是不按旧条行事的“人才”本身,“不拘一格”是自己的心态和眼光。  八月份正是学子们等待大学为自己敞开大门的时候,能金榜题名当然是乐事,但竞争惨烈,总有翘
1.前路道长且阻,而我以一腔热血勇敢相迎  2010年冬末,我毅然坐上了北上的火车。那一年,我大四,周身还环绕着梦想的光芒,我无知却无所畏惧,有着初生牛犊不怕虎的冲劲。  我终是不顾父母反对,怀揣着三千元积蓄和暖心的梦想踏上了这一场未知的旅行。  曾经的曾经,我无数次幻想过自己未来的模样。  也许,我能成为一名热心公益,接触形形色色生活在社会底层小人物的记者,又或者做一名不出家门半步,却能够用键盘
前段时间,青岛市迎来了一个属于他们自己的重要节日——邻居节。市民一改往日的忙碌,敲开平时没见过几面的邻居家门,或聊聊家常,或齐聚一桌。在这天,邻里的关系被拉近了。这样一个专为邻居而诞生的节日,有人认为是青岛市的传统,但邻居节的存在还不到十年,更让人想不到的是,邻居节的创造者竟是一个13岁的小女孩。  小女孩名叫孙睿涵,十年前,她提出“邻居节”的构想,获得了青岛市政府的大力支持。现在,当人们问起她创
有人发明了一种高科技产品,平安罩,可以全方位地保护孩子。这让许多父母欣慰不已,孩子们终于安全了。  平安罩外表看起来就像一个玻璃罩,光亮透明,戴上它,完全不妨碍你从任何一个角度看孩子,孩子也可以自由地看外面的世界。  实验证明,这是一项成功的发明,无论是摔跤,还是被人无端打过来,平安罩都可以很好地保护孩子,防范任何意外发生。  开始的时候,平安罩只是针对婴幼儿,后来,由于市场的需要,平安罩的型号从