打扑克，AI又赢了！

来源 :百科新说 | 被引量 : 0次 | 上传用户：goblinzehong

【摘要】

：

【作者】

：

洋洋

【出处】

：

百科新说

【发表日期】

：

2018年2期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　精彩的人机对抗
　　2017年1月11日，在美国匹兹堡举行了一场别开生面的国际扑克大赛。这次的参赛选手非常特别，4名人类顶尖选手对战美国卡内基-梅隆大学开发的人工智能Libratus！
　　在20天的比赛时间里，4名人类顶尖选手充分发挥集体的力量，每天比赛后，他们会在酒店房间里碰头，花数小时，一起分析当天的比赛有没有什么可以汲取的教训。为了找到Libratus在策略上的漏洞，他们约定每个人每天都尝试不同的打法，下不同的赌注。
　　第一天，人类的诡异的游戏策略取得了成功。他们赢得了开门红！在随后的几天，虽然AI一直处于领先地位，但优势没有特别明显。比如到了第三天，Libratus赢得了大概19.3万美元的赌注，但在第四天，人类选手就将差距缩小到4.2万美元。之后，双方又激烈争夺，到了第六天，AI只赢了5.5万美元的赌注。双方基本上不分输赢！观战者似乎预料到了结局。2015年人机扑克大战时，AI以较大的劣势输给了人类，这次也会一样！在各大赌博网站上，人们预言Libratus必败，赔率达到了4：1！
　　然而，形势突然逆转。到了第7天，Libratus不断扩大优势，赢得赌注越来越多。与此同时，人类选手很难找到它的漏洞，即使找到了，第二天这个漏洞就消失了，每一天，Libratus都在进步，它不只是从不露出破绽，似乎也知道每个人类对手的弱点！最终到了比赛截止日——1月30日，四个人类玩家大败而归，他们一共输了176万美元筹码。
　　扑克比赛会受到运气的影响，然而这次比赛，双方一共打了12万手牌，牌运的影响几乎微乎其微，比赛结果的可信度高达99.77%，AI有不可逆转的优势！
　　这是AI首次在一对一无限注德州扑克比赛中，击败人类职业选手！在扑克牌领域，人类又要失守了！也许你会问，AI已经在象棋、围棋方面击败了人类选手，扑克牌那么简单，这有什么好奇怪的？
　　这是一個突破性的成就
　　实际上，AI要战胜人类扑克牌选手会更难。为什么这么说呢？
　　无论是象棋、围棋，还是跳棋，比赛中AI可以掌握的信息是非常完全的，比如AI可以知道棋子布局、双方已下和剩余棋子的数量。根据对手的棋子下的位置，利用强大的算法，AI可以从对手这个完全确定的状态作出进一步预测，然后采取针对性的防御措施就可以了。
　　但扑克是典型的不完全信息博弈游戏，它包含着许多隐含信息。拿这次Libratus参与的扑克游戏——德克萨斯扑克牌来说。
　　德克萨斯扑克牌是现在全球扑克大赛中最主要的比赛类型。它跟普通扑克牌一样，只不过没有大小王牌，总牌数是52张。发牌一共有5轮。在第一轮里，玩家得先下盲注，然后才会收到两张面朝下的底牌。随后又会进行第二轮发牌，这次发的3张牌是面朝上的公牌；紧接着再发三轮牌，玩家会陆续收到3张公牌。在每一轮发牌中，玩家们会轮流下注，对手则可以选择加注、跟注、弃牌等等。经过所有押注圈后，若仍不能分出胜负，游戏会进入“摊牌”阶段，也就是让所剩的玩家亮出各自的底牌以较高下，持大牌者获胜。这次Libratus打的一对一无限注德州扑克，是德州扑克的一种类型，主要特征就是玩家下的注不受限制，风险更大。
　　显然，打扑克牌涉及到对不完全信息的处理。比如，你不知道你的对手的底牌是什么，你也不知道下一张牌会发什么，但你必须得根据这些不完全信息，猜测对手的底牌和下一张牌的可能性，还需要根据对手的下注、跟注、弃牌等动作，再决定下多少注。一些人即使自己的牌很小，但会选择诈唬的方式，下很大的注，这个时候如果你没法识破骗术，吓得弃了牌，你就输了。这些都是扑克牌中不完全信息的表现。
　　扑克牌也很复杂，一对一无限注德州扑克每一轮发牌，有10160的局面可能，这比宇宙中的原子数量还要多（目前可观测宇宙约有1075个原子），近似无穷。当然，围棋的局面变化更多，大约有10170。但扑克牌的不完全信息，使得AI打扑克比下围棋难度大得多，这几乎是一场心理战。所以，当AI接二连三地攻占了各项棋艺项目，只有扑克牌一直未能攻破。
　　那么，Libratus有什么诀窍？
　　有个强大的后援
　　首先，Libratus有一个强大的后援——匹兹堡超算中心的超级计算机Bridges。Bridges不是当今世界最大、最快、最强劲的超级计算机，但它可能是面向公众开放的，最大、最快、最强劲的超级计算机。生物学家、地质学家、经济学家等都可以使用Bridges。Bridges的处理能力和内存分别是一台高端笔记本电脑的7000倍和17000倍，使得原本在个人电脑上耗时数月的计算，仅仅几个小时就搞定。
　　Bridges消耗了大约1500万个核心小时的计算量来构建Libratus。在Libratus的比赛过程中，还在持续优化Libratus的策略，让这个AI可以玩得更好。
　　那么，具体说来，Libratus的学习策略是什么样的呢？与阿尔法狗不同的是，Libratus并没有使用目前相当红火的深度学习技术，而是采用强化学习的技巧。
　　首先，研究者教会了Libratus游戏规则，并给它定下了简单的小目标——赢钱，之后，让它自己和自己对打了数万亿手，在这一过程中，它会不断尝试偶然发现的新的打法。Libratus会总结怎样的玩法会成功，怎样的玩法会失败，并利用这些观察结果制定策略。
　　这种方法的一个明显优点是，Libratus不会只学习别的扑克玩家使用的策略，它可以创造出自己的独特打法，有时甚至能发明一套违反直觉的打法。例如，当Libratus手持弱牌，而对手提高了赌注时，程序有时也会跟着提高赌注。这样的打法很冒失，毕竟这样做提高了输牌的几率，要是此时对方识破了这一骗术，因为手持好牌而提高赌注，那Libratus可就输惨了。
　　但这其实是一招好棋。它可以让Libratus学会人类的诈唬，以及不被诈唬。在匹兹堡的人机大战中，Libratus通过诈唬成功骗了四位人类选手，赢下了许多局。
　　Libratus使用的另外一招是 “残局解算”。在每一手牌之后，Libratus会自我学习，并精确地计算出发第4手牌和第5手牌所能承受的最大风险。如果你现场观察，就会发现在这两个发牌阶段，Libratus花的时间更多。
　　最后一招是游戏后的“持续自我强化”。当人类对手每天晚上在酒店里总结经验教训、寻找AI的破绽时， Libratus也在持续“进化”。它会填补在比赛时出现的漏洞，这就意味着Libratus可以不断提高自己的比赛水平，让人类对手发现不了什么破绽。Libratus甚至会根据人类选手是否注意到自己的漏洞，来决定先修补哪些漏洞。
　　意义重大
　　Libratus的取胜意义重大。因为对不完全信息的处理能力，才更能适应现实世界。在生活中，人类的很多决策，比如金融交易、拍卖、政治和商业谈判、军事或网络安全策略以及规划医疗方案等，都跟处理不完全信息有关，如果AI能处理这些信息，那将会带来突破性的变革。
　　想象一下，如果你有一个能“读心”的机器人，它身上的传感器能让它有记忆功能，同时能通过感知对手一些微小的生理变化，如出汗量、瞳孔变化，来判断出对手的压力程度。当你派它去解决商业、军事、政治和外交方面的问题，是不是会比人类谈判高手更出色？
　　当然，人类也不必太恐慌，担心Libratus会让自己没法继续玩德州扑克，或者让自己失去工作。因为Libratus仍然需要超级计算机来执行计算程序并改进策略，而这一过程的成本会非常昂贵。在这次人机大战比赛期间，Libratus依靠的Bridge超级计算机，共运行了150台服务器，耗费大概203万美元。所以，暂时你还不用担心无敌的扑克AI出现在市场上。

其他文献

揭秘雪花结构的人

低垂的天空，乌云密布，不一会儿，一片片轻盈的雪花飘然而下，美丽的雪花落在了树枝上、地上，让大地一片银装素裹。而在100多年前，有一个业余摄影师正仰望着天空，痴迷于这些空中精灵。他对它们有种异乎寻常的热爱，以至于花了一辈子时间去记录雪花的美丽，成了世界上第一个给雪花拍照的人。他就是有“雪花男人”之称的威尔逊·宾利。　　宾利的冰雪世界　　1865年2月，宾利出生于美国佛蒙特州的一个小农村里。佛蒙特州春

期刊

乐观的悲观主义

看到半杯水，你会觉得它是半满还是半空的？相信大家很早之前就听说过这个小实验，乐观主义者会认为杯子是半满的，悲观主义者则认为杯子是半空的。人们将乐观主义和悲观主义的界线划得很清楚，一“白”一“黑”，多数人认为前者可以帮助我们克服诸多困难，而后者只会让事情越来越糟。　　乐观不能永远带来幸运　　乐观主义的积极作用确实有很多，例如我们生活中常说的“爱笑的女孩运气不会差”，虽然爱笑和运气之间看似没有直接的联

期刊

特工们的脑筋急转弯

美国国家安全局（NSA）是美国政府机构中最大的情报部门，其总部占地面积达15公顷，规模比中央情报局总部还大。在这里，有世界上最聪明的特工和破译者，对于他们来说，破译一些复杂的代码，用算法来找出代码里隐藏的信息，属于普通工作。因为思考抽象问题，挑战未知领域，是作为一名美国国家安全局员工的最基本素质。　　所以，当你听到这些员工对脑筋急转弯感兴趣，也许就不会觉得那么奇怪了。每个月，美国国家安全局会在其官

期刊

普世之美为什么不存在

基因测序工程表明，地球上所有人都属同一个祖先，也就是说都是一家人。那么不论时间、空间、国家、民族，人的审美是不是有共同之处呢？是否存在一种普世的、人所公认的视觉艺术、听觉艺术呢？或者说，艺术之美有统一的标准，像北极星一样可以永远指引艺术创作吗？　　对称是普世之美吗　　绘画艺术中最常见的一种表达方式，就是对称。它出现在许多地方，很普遍。古代波斯地毯和现代西班牙的阿罕布拉宫天花板，都有相似的几何图案，

期刊

世界各地最具创意的雕塑

《母親蜘蛛》　　加拿大国家美术馆前的广场上，有一青铜浇筑的大黑蜘蛛雕塑。大蜘蛛是美国女雕塑家路易斯·布尔乔亚（Louise Bourgeois）的作品，高30米，宽33米，总重量6000千克。这个大蜘蛛雕塑名为“妈妈”（Maman），路易斯说：“蜘蛛是我母亲的颂歌。我的家经营挂毯生意，我的母亲非常聪明，像蜘蛛一样管理着作坊。我们知道，蜘蛛是人类的好朋友，因为它吃蚊子。而蚊子会传播疾病。所以，蜘蛛帮

期刊

2017年度最美科学图片

2017年的自然科學突破不断，惊喜连连。从宏观宇宙到微生物，人类对自然的认知进一步加深。为了记录这些奇迹，摄影师们走遍全世界，用镜头向我们展示了那些曾经未知的场景和事物。以下图片是《自然》杂志选出的2017年度最美科学图片。

期刊

谎话也打擦边球

与人交往过程中，我们每个人几乎都会撒谎。一项研究显示，每个人每天平均会撒1～2个谎。许多谎言是无害的，比如善意的谎言就有利于和谐人际关系，减少人们的矛盾与冲突。　　还有一类谎言非常奇怪，撒谎者却利用它们来误导你，操纵你，达到自己的某个目的。即便你随后识破了，还不能指责撒谎者，因为他们确实说的是真话。可能现在你有点糊涂了，这怎么可能呢？　　政治家的高明外交　　实际上你也可能在说真话的时候撒个谎。举个

期刊

修复珊瑚礁的奇技妙术

盡管只占了海底面积不到2%的地方，珊瑚礁仍是地球上最丰富的生态系统之一，它们为大约四分之一的已知海洋物种提供了食物和住所。但由于20世纪70年代末和80年代初的多重灾难，佛罗里达群岛和加勒比海地区失去了90%的珊瑚，曾经生机盎然的珊瑚礁如今成了地球上最岌岌可危的生态系统，所剩的珊瑚寥寥无几，濒临灭绝。　　总部位于美国佛罗里达州的珊瑚修复基金会（CRF）是一家非盈利海洋保护组织。CRF旨在保护并重建

期刊

人生来就会看“眼色”

我们常说眼睛是心灵的窗口，英国剑桥大学的研究者证明：我们具有从别人眼睛和眼睛周围区域识别对方情绪、想法、状态的能力，这种能力是人类独有的，并且具有深层的生物根源。　　那我们又是怎样从一个人的眼睛来“读”他的呢？事实上，人类是唯一具有大面积白色巩膜（眼白）的物种，而白色巩膜，是我们“读”另一个人的重要依据。例如，我们用翻白眼来表示鄙视，用斜视来表示愤恨、不满。而阅读他人心智的能力在人类幼年时期就有了

期刊

倭黑猩猩爱坏蛋

倭黑猩猩相对于它们的近亲黑猩猩来说更温和，很少发怒，也不爱喧哗。更奇妙的是，大多数倭黑猩猩很喜欢对别人施以援手，哪怕对方并没有主动要求帮忙，或者帮助对方对自己并没有什么好处。不过，这个群体里也有自私、恃强凌弱或非常刻薄的个体。出人意料的是，相对于乐于助人的倭黑猩猩，大多数雌性倭黑猩猩都更喜欢那些混蛋，简直就是倭黑猩猩版本的“男人不坏，女人不爱”。　　科学家认为，雌性倭黑猩猩会更喜欢暴力的混蛋，可能

期刊

打扑克，AI又赢了！

其他学术论文