打扑克,AI又赢了!

来源 :百科新说 | 被引量 : 0次 | 上传用户:goblinzehong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  精彩的人机对抗
  2017年1月11日,在美国匹兹堡举行了一场别开生面的国际扑克大赛。这次的参赛选手非常特别,4名人类顶尖选手对战美国卡内基-梅隆大学开发的人工智能Libratus!
  在20天的比赛时间里,4名人类顶尖选手充分发挥集体的力量,每天比赛后,他们会在酒店房间里碰头,花数小时,一起分析当天的比赛有没有什么可以汲取的教训。为了找到Libratus在策略上的漏洞,他们约定每个人每天都尝试不同的打法,下不同的赌注。
  第一天,人类的诡异的游戏策略取得了成功。他们赢得了开门红!在随后的几天,虽然AI一直处于领先地位,但优势没有特别明显。比如到了第三天,Libratus赢得了大概19.3万美元的赌注,但在第四天,人类选手就将差距缩小到4.2万美元。之后,双方又激烈争夺,到了第六天,AI只赢了5.5万美元的赌注。双方基本上不分输赢!观战者似乎预料到了结局。2015年人机扑克大战时,AI以较大的劣势输给了人类,这次也会一样!在各大赌博网站上,人们预言Libratus必败,赔率达到了4:1!
  然而,形势突然逆转。到了第7天,Libratus不断扩大优势,赢得赌注越来越多。与此同时,人类选手很难找到它的漏洞,即使找到了,第二天这个漏洞就消失了,每一天,Libratus都在进步,它不只是从不露出破绽,似乎也知道每个人类对手的弱点!最终到了比赛截止日——1月30日,四个人类玩家大败而归,他们一共输了176万美元筹码。
  扑克比赛会受到运气的影响,然而这次比赛,双方一共打了12万手牌,牌运的影响几乎微乎其微,比赛结果的可信度高达99.77%,AI有不可逆转的优势!
  这是AI首次在一对一无限注德州扑克比赛中,击败人类职业选手!在扑克牌领域,人类又要失守了!也许你会问,AI已经在象棋、围棋方面击败了人类选手,扑克牌那么简单,这有什么好奇怪的?
  这是一個突破性的成就
  实际上,AI要战胜人类扑克牌选手会更难。为什么这么说呢?
  无论是象棋、围棋,还是跳棋,比赛中AI可以掌握的信息是非常完全的,比如AI可以知道棋子布局、双方已下和剩余棋子的数量。根据对手的棋子下的位置,利用强大的算法,AI可以从对手这个完全确定的状态作出进一步预测,然后采取针对性的防御措施就可以了。
  但扑克是典型的不完全信息博弈游戏,它包含着许多隐含信息。拿这次Libratus参与的扑克游戏——德克萨斯扑克牌来说。
  德克萨斯扑克牌是现在全球扑克大赛中最主要的比赛类型。它跟普通扑克牌一样,只不过没有大小王牌,总牌数是52张。发牌一共有5轮。在第一轮里,玩家得先下盲注,然后才会收到两张面朝下的底牌。随后又会进行第二轮发牌,这次发的3张牌是面朝上的公牌;紧接着再发三轮牌,玩家会陆续收到3张公牌。在每一轮发牌中,玩家们会轮流下注,对手则可以选择加注、跟注、弃牌等等。经过所有押注圈后,若仍不能分出胜负,游戏会进入“摊牌”阶段,也就是让所剩的玩家亮出各自的底牌以较高下,持大牌者获胜。这次Libratus打的一对一无限注德州扑克,是德州扑克的一种类型,主要特征就是玩家下的注不受限制,风险更大。
  显然,打扑克牌涉及到对不完全信息的处理。比如,你不知道你的对手的底牌是什么,你也不知道下一张牌会发什么,但你必须得根据这些不完全信息,猜测对手的底牌和下一张牌的可能性,还需要根据对手的下注、跟注、弃牌等动作,再决定下多少注。一些人即使自己的牌很小,但会选择诈唬的方式,下很大的注,这个时候如果你没法识破骗术,吓得弃了牌,你就输了。这些都是扑克牌中不完全信息的表现。
  扑克牌也很复杂,一对一无限注德州扑克每一轮发牌,有10160的局面可能,这比宇宙中的原子数量还要多(目前可观测宇宙约有1075个原子),近似无穷。当然,围棋的局面变化更多,大约有10170。但扑克牌的不完全信息,使得AI打扑克比下围棋难度大得多,这几乎是一场心理战。所以,当AI接二连三地攻占了各项棋艺项目,只有扑克牌一直未能攻破。
  那么,Libratus有什么诀窍?
  有个强大的后援
  首先,Libratus有一个强大的后援——匹兹堡超算中心的超级计算机Bridges。Bridges不是当今世界最大、最快、最强劲的超级计算机,但它可能是面向公众开放的,最大、最快、最强劲的超级计算机。生物学家、地质学家、经济学家等都可以使用Bridges。Bridges的处理能力和内存分别是一台高端笔记本电脑的7000倍和17000倍,使得原本在个人电脑上耗时数月的计算,仅仅几个小时就搞定。
  Bridges消耗了大约1500万个核心小时的计算量来构建Libratus。在Libratus的比赛过程中,还在持续优化Libratus的策略,让这个AI可以玩得更好。
  那么,具体说来,Libratus的学习策略是什么样的呢?与阿尔法狗不同的是,Libratus并没有使用目前相当红火的深度学习技术,而是采用强化学习的技巧。
  首先,研究者教会了Libratus游戏规则,并给它定下了简单的小目标——赢钱,之后,让它自己和自己对打了数万亿手,在这一过程中,它会不断尝试偶然发现的新的打法。Libratus会总结怎样的玩法会成功,怎样的玩法会失败,并利用这些观察结果制定策略。
  这种方法的一个明显优点是,Libratus不会只学习别的扑克玩家使用的策略,它可以创造出自己的独特打法,有时甚至能发明一套违反直觉的打法。例如,当Libratus手持弱牌,而对手提高了赌注时,程序有时也会跟着提高赌注。这样的打法很冒失,毕竟这样做提高了输牌的几率,要是此时对方识破了这一骗术,因为手持好牌而提高赌注,那Libratus可就输惨了。
  但这其实是一招好棋。它可以让Libratus学会人类的诈唬,以及不被诈唬。在匹兹堡的人机大战中,Libratus通过诈唬成功骗了四位人类选手,赢下了许多局。
  Libratus使用的另外一招是 “残局解算”。 在每一手牌之后,Libratus会自我学习,并精确地计算出发第4手牌和第5手牌所能承受的最大风险。如果你现场观察,就会发现在这两个发牌阶段,Libratus花的时间更多。
  最后一招是游戏后的“持续自我强化”。当人类对手每天晚上在酒店里总结经验教训、寻找AI的破绽时, Libratus也在持续“进化”。它会填补在比赛时出现的漏洞,这就意味着Libratus可以不断提高自己的比赛水平,让人类对手发现不了什么破绽。Libratus甚至会根据人类选手是否注意到自己的漏洞,来决定先修补哪些漏洞。
  意义重大
  Libratus的取胜意义重大。因为对不完全信息的处理能力,才更能适应现实世界。在生活中,人类的很多决策,比如金融交易、拍卖、政治和商业谈判、军事或网络安全策略以及规划医疗方案等,都跟处理不完全信息有关,如果AI能处理这些信息,那将会带来突破性的变革。
  想象一下,如果你有一个能“读心”的机器人,它身上的传感器能让它有记忆功能,同时能通过感知对手一些微小的生理变化,如出汗量、瞳孔变化,来判断出对手的压力程度。当你派它去解决商业、军事、政治和外交方面的问题,是不是会比人类谈判高手更出色?
  当然,人类也不必太恐慌,担心Libratus会让自己没法继续玩德州扑克,或者让自己失去工作。因为Libratus仍然需要超级计算机来执行计算程序并改进策略,而这一过程的成本会非常昂贵。在这次人机大战比赛期间,Libratus依靠的Bridge超级计算机,共运行了150台服务器,耗费大概203万美元。所以,暂时你还不用担心无敌的扑克AI出现在市场上。
其他文献
低垂的天空,乌云密布,不一会儿,一片片轻盈的雪花飘然而下,美丽的雪花落在了树枝上、地上,让大地一片银装素裹。而在100多年前,有一个业余摄影师正仰望着天空,痴迷于这些空中精灵。他对它们有种异乎寻常的热爱,以至于花了一辈子时间去记录雪花的美丽,成了世界上第一个给雪花拍照的人。他就是有“雪花男人”之称的威尔逊·宾利。  宾利的冰雪世界  1865年2月,宾利出生于美国佛蒙特州的一个小农村里。佛蒙特州春
期刊
看到半杯水,你会觉得它是半满还是半空的?相信大家很早之前就听说过这个小实验,乐观主义者会认为杯子是半满的,悲观主义者则认为杯子是半空的。人们将乐观主义和悲观主义的界线划得很清楚,一“白”一“黑”,多数人认为前者可以帮助我们克服诸多困难,而后者只会让事情越来越糟。  乐观不能永远带来幸运  乐观主义的积极作用确实有很多,例如我们生活中常说的“爱笑的女孩运气不会差”,虽然爱笑和运气之间看似没有直接的联
期刊
美国国家安全局(NSA)是美国政府机构中最大的情报部门,其总部占地面积达15公顷,规模比中央情报局总部还大。在这里,有世界上最聪明的特工和破译者,对于他们来说,破译一些复杂的代码,用算法来找出代码里隐藏的信息,属于普通工作。因为思考抽象问题,挑战未知领域,是作为一名美国国家安全局员工的最基本素质。  所以,当你听到这些员工对脑筋急转弯感兴趣,也许就不会觉得那么奇怪了。每个月,美国国家安全局会在其官
期刊
基因测序工程表明,地球上所有人都属同一个祖先,也就是说都是一家人。那么不论时间、空间、国家、民族,人的审美是不是有共同之处呢?是否存在一种普世的、人所公认的视觉艺术、听觉艺术呢?或者说,艺术之美有统一的标准,像北极星一样可以永远指引艺术创作吗?  对称是普世之美吗  绘画艺术中最常见的一种表达方式,就是对称。它出现在许多地方,很普遍。古代波斯地毯和现代西班牙的阿罕布拉宫天花板,都有相似的几何图案,
期刊
《母親蜘蛛》  加拿大国家美术馆前的广场上,有一青铜浇筑的大黑蜘蛛雕塑。大蜘蛛是美国女雕塑家路易斯·布尔乔亚(Louise Bourgeois)的作品,高30米,宽33米,总重量6000千克。这个大蜘蛛雕塑名为“妈妈”(Maman),路易斯说:“蜘蛛是我母亲的颂歌。我的家经营挂毯生意,我的母亲非常聪明,像蜘蛛一样管理着作坊。我们知道,蜘蛛是人类的好朋友,因为它吃蚊子。而蚊子会传播疾病。所以,蜘蛛帮
期刊
2017年的自然科學突破不断,惊喜连连。从宏观宇宙到微生物,人类对自然的认知进一步加深。为了记录这些奇迹,摄影师们走遍全世界,用镜头向我们展示了那些曾经未知的场景和事物。以下图片是《自然》杂志选出的2017年度最美科学图片。
期刊
与人交往过程中,我们每个人几乎都会撒谎。一项研究显示,每个人每天平均会撒1~2个谎。许多谎言是无害的,比如善意的谎言就有利于和谐人际关系,减少人们的矛盾与冲突。  还有一类谎言非常奇怪,撒谎者却利用它们来误导你,操纵你,达到自己的某个目的。即便你随后识破了,还不能指责撒谎者,因为他们确实说的是真话。可能现在你有点糊涂了,这怎么可能呢?  政治家的高明外交  实际上你也可能在说真话的时候撒个谎。举个
期刊
盡管只占了海底面积不到2%的地方,珊瑚礁仍是地球上最丰富的生态系统之一,它们为大约四分之一的已知海洋物种提供了食物和住所。但由于20世纪70年代末和80年代初的多重灾难,佛罗里达群岛和加勒比海地区失去了90%的珊瑚,曾经生机盎然的珊瑚礁如今成了地球上最岌岌可危的生态系统,所剩的珊瑚寥寥无几,濒临灭绝。  总部位于美国佛罗里达州的珊瑚修复基金会(CRF)是一家非盈利海洋保护组织。CRF旨在保护并重建
期刊
我们常说眼睛是心灵的窗口,英国剑桥大学的研究者证明:我们具有从别人眼睛和眼睛周围区域识别对方情绪、想法、状态的能力,这种能力是人类独有的,并且具有深层的生物根源。  那我们又是怎样从一个人的眼睛来“读”他的呢?事实上,人类是唯一具有大面积白色巩膜(眼白)的物种,而白色巩膜,是我们“读”另一个人的重要依据。例如,我们用翻白眼来表示鄙视,用斜视来表示愤恨、不满。而阅读他人心智的能力在人类幼年时期就有了
期刊
倭黑猩猩相对于它们的近亲黑猩猩来说更温和,很少发怒,也不爱喧哗。更奇妙的是,大多数倭黑猩猩很喜欢对别人施以援手,哪怕对方并没有主动要求帮忙,或者帮助对方对自己并没有什么好处。不过,这个群体里也有自私、恃强凌弱或非常刻薄的个体。出人意料的是,相对于乐于助人的倭黑猩猩,大多数雌性倭黑猩猩都更喜欢那些混蛋,简直就是倭黑猩猩版本的“男人不坏,女人不爱”。  科学家认为,雌性倭黑猩猩会更喜欢暴力的混蛋,可能
期刊