范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力惊人

  智东西(公众号:zhidxcom)
  编译 | ZeR0
  编辑 | 漠影
  智东西12月9日消息,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新的游戏AI系统。
  与此前开发的游戏系统不同,DeepMind的AI新作Player of Games是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
  Player of Game在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
  从实验结果来看,DeepMind称Player of Games在完全信息游戏中的表现已经达到了"人类顶级业余选手"水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
  在两类不完全信息游戏中,Player of Games均击败了最先进的AI智能体。
  论文链接:https://arxiv.org/pdf/2112.03178.pdf
  一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏AI系统一路发展。1992年,IBM开发的TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石……
  IBM深蓝系统vs世界棋王卡斯帕罗夫
  这些AI系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。
  随后,AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发,包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。
  2019年1月,AlphaStar对战星际争霸II职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind研发了一种新的算法Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能。
  二、更通用的算法PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind称,Player of Games是首个"通用且健全的搜索算法",在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
  在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
  Player of Games有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
  此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  苏格兰场的抽象图,Player of Games能够持续获胜
  在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
  不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
  在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。
  尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games在德州扑克比赛中与公开可用的Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛。
  不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是"显著"击败了它。
  三、研究关键挑战:训练成本太高
  施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
  据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
  结语:游戏AI正助力突破认知及推理挑战
  目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在Player of Games论文最后中被提及的问题,还没有明确的答案。

双十一忙什么优惠怎么能错过一年一度的光棍节又到了,每年这个时候大家都会先储备好钱然后在双十一半夜开始伺机抢优惠清空购物车,相信今年也不例外。根据谷歌关键词统计数据显示,香港民众自9月份双十一关键词搜索率飙至小白主播从0开始挑战困难生存模式第二天黑夜我的世界里僵尸都学会抱团玩战术了,真是僵尸不可怕会兵法的僵尸才可怕。一招声东击西差点骗过玩家。时间过得真快,一转眼就到了第二天的夜晚了,这才刚刚夜晚僵尸就刷出来开始围殴主播了。主播东南亚电商职场女性高层比例和工作满意度当互联网在90年代进入公众视野时,电子商务也成为后起之秀行业。电商在千禧年如雨后春笋大量涌现,然而因社交媒体和手机网络用户有限的情况下未能达到全民普及化。不过,在短短的20年内,电科索沃事件的定义时间背景事件经过教训定义科索沃事件指1989年2月的非常状态事件和1990年7月的宪法宣言。事件背景科索沃自治省属于塞尔维亚共和国,阿尔巴尼亚族为主。战后以来,阿族人已在1968年和1981年两次举行莱德尔的人物来历出场时间后记原型莱德尔是葛洛夫帮派的高层管理者之一,但是后来为了名誉和利益,联合斯莫克一起背叛了葛洛夫。在游戏中期69号码头(pier69)任务中被主角CJ杀死在69号码头的船上。莱德尔是一个个子凯特琳娜的出现时间表后记出现时间表(按事件发生时间顺序)1侠盗猎车手圣安地列斯11第一次约会中初次登场12人体收割中邀请生意13FirstBase对CJ示爱14去求爱中CJ遭到其虐待15别了,我的爱人凯特尼克贝里克的游戏出现被尼克贝里克杀害的人其他游戏出现GTA4作为可操纵角色,在任何任务中都会出现。失落与诅咒CleanandSerene(清净与安宁)BuyersMarket(买家市场)CollectorsItem(收藏家的239,888元起,上汽大众ID6。X上市,造车新势力如何接招?很长时间以来,中国新能源,尤其是纯电汽车市场都是国产品牌和造车新势力的天下,合资品牌的声浪似乎小了不少。但从今年开始,合资品牌似乎开始发力,就以上汽大众为例,仅今年上半年就上市了两新势力新纯电车推荐,首推居然是它!今年对于新能源车,尤其是纯电车来说绝对是不寻常的一年,尤其是新能源的政策开始慢慢收紧。以上海为例,轴距不足4600mm,售价低于10万的车型将无法获得新能源牌照,这也就意味着,新能一次说走就走的旅行,感受奥迪A4旅行版的双面人生你,抛过硬币吗?随着字与花不断的旋转,由于决定不一样的人生,落地那一刻才能最终成型。但如何同时感受硬币的双面,就如同如何感受双面人生一样,有趣且充实。有这样的感触还是源自一次活动邀提车需等三个月,静评之后再考虑比亚迪秦PLUSDMi值不值如今芯片危机影响到了每一个行业,尤其是芯片大户汽车,影响是非常严重的,很多车企产能都收到的影响,而伴随着的蝴蝶效应就是4S店拿不到新车,消费者的提车时间也被一拖再拖,而部分厂商开始
王者荣耀体验服芈月橘右京削弱,新英雄晟即将上线王者荣耀体验服已在12月28日对四位英雄进行了调整,其中包括达摩专属装加强橘右京削弱芈月削弱新英雄暃削弱,具体内容如下达摩加强专属装的大招眩晕时间增长(大招改为一段,且眩晕时间增加英雄联盟牛头介绍阿利斯塔牛头酋长许多文明都站出来反抗诺克斯,但其中宏伟屏障山脉的许多先生的反抗最持久。这些勇猛的牛头几百年来一直坚守着通往祖安的陆上贸易路线,但不想卷入瓦罗兰更大的纷争中。高贵的战超凡战队x哥斯拉英雄大战怪兽之王大家好这里是来自玩具惑星的TOYSSTAR手办娘()今天也照样为大家带来了最新的资讯!传奇英雄联动传奇怪兽!早前我们TOYSSTAR迅合行给各位小伙伴介绍了超凡战队联动忍者神龟的漫原神刻晴新衣跟原皮差不多?魈抢先三无复刻PV都没有千盼万盼终于迎来了原神的2。4版本节目前瞻,因为马上就要跨年了,所以说玩家对于2。4版本也是非常的重视。虽然说米哈游对原神这个游戏福利比较抠门儿,但起码是跨年肯定比平常的福利要好一光遇蜡烛UI变灰了?系疲劳状态提醒,还可以收5根蜡烛光遇蜡烛UI变灰了?系疲劳状态提醒,还可以收5根蜡烛前言大家好,我是林克。每日分享游戏电竞情报攻略玩法等。新版本之后,大家在跑图时,都说遇到了这样的情况,当蜡烛达到20根之后,左上三国杀脑杀无法理解的强将集锦新武将上线后,我们往往没有先从实际对局中感受强度,而是通过阅读文本技能对武将进行一个定论,这种行为被称做脑杀。而有一些强将的存在,是无法通过脑杀感受的,这些强将究竟有些谁呢?一起来王者荣耀为什老是上不了荣耀王者打了10几个赛季的王者从来都没有上过荣耀本来想这个赛季一定要上去的结果打到30几星就开始连跪一直掉到20星越掉心态越没有想好好打又是打赢一局输一局太累了最近都不想玩了就是偶尔玩一两战舰世界新战舰助玩家大展身手,活动奖励丰厚等你拿战舰世界0。10。11版本更新后获得了玩家的一致好评,这一次的更新和以前版本相比,有了质的飞跃。不仅画面更加精美,声音模式有更多自主选择类型,游戏本身的内容也极大丰富,尤其是战舰的国产游戏又封神了?刚上Steam就登顶差评榜首,手把手教玩家氪金大家周末好,我是X博士。新版热游情报将由新游动态经典游戏全球热门三个部分组成。一句两句无法说清楚,还是跟X博士一起这周有哪些热点资讯吧。新游动态划重点韩服地下城与勇士手游测试韩国玩传奇IP之争尘埃落定中国青年报客户端讯(中青报中青网记者只恒文)在国内提到知识产权纠纷,传奇必然是绕不开的话题,这个维权争斗已有20年之久的IP,如今终于尘埃落定。最高人民法院近日就盛趣游戏(原盛大游三国杀汉灵帝女儿,汉献帝妹妹爆料,菜刀武将的新装备三国杀汉灵帝女儿,汉献帝妹妹爆料,菜刀武将的新装备!三国杀移动版最近新杀又爆料了一个武将,这次是一个很强力的辅助武将,而且背景还不小,那她强度如何呢?我们一起来看看吧!万年公主(3