范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力惊人

  智东西(公众号:zhidxcom)
  编译 | ZeR0
  编辑 | 漠影
  智东西12月9日消息,谷歌母公司Alphabet旗下顶尖AI实验室DeepMind曾因其AI系统AlphaGo击败顶尖人类围棋选手、AlphaStar赢得星际争霸2而爆红全球。本周,它又披露新的游戏AI系统。
  与此前开发的游戏系统不同,DeepMind的AI新作Player of Games是第一个在完全信息游戏以及不完全信息游戏中都能实现强大性能的AI算法。完全信息游戏如中国围棋、象棋等棋盘游戏,不完全信息游戏如扑克等。
  这是向能够在任意环境中学习的真正通用AI算法迈出的重要一步。
  Player of Game在象棋、围棋这两种完全信息游戏和德州扑克、苏格兰场这两种不完全信息游戏中与顶尖AI智能体对战。
  从实验结果来看,DeepMind称Player of Games在完全信息游戏中的表现已经达到了"人类顶级业余选手"水平,但如果给予相同资源,该算法的表现可能会明显弱于AlphaZero等专用游戏算法。
  在两类不完全信息游戏中,Player of Games均击败了最先进的AI智能体。
  论文链接:https://arxiv.org/pdf/2112.03178.pdf
  一、深蓝、AlphaGo等AI系统仅擅长玩一种游戏
  计算机程序挑战人类游戏选手由来已久。
  20世纪50年代,IBM科学家亚瑟·塞缪尔(Arthur L. Samuel)开发了一个跳棋程序,通过自对弈来持续改进其功能,这项研究给很多人带来启发,并普及了"机器学习"这个术语。
  此后游戏AI系统一路发展。1992年,IBM开发的TD-Gammon通过自对弈在西洋双陆棋中实现大师级水平;1997年,IBM深蓝DeepBlue在国际象棋竞赛中战胜当时的世界棋王卡斯帕罗夫;2016年,DeepMind研发的AI系统AlphaGo在围棋比赛中击败世界围棋冠军李世石……
  IBM深蓝系统vs世界棋王卡斯帕罗夫
  这些AI系统有一个共同之处,都是专注于一款游戏。比如塞缪尔的程序、AlphaGo不会下国际象棋,IBM的深蓝也不会下围棋。
  随后,AlphaGo的继任者AlphaZero做到了举一反三。它证明了通过简化AlphaGo的方法,用最少的人类知识,一个单一的算法可以掌握三种不同的完全信息游戏。不过AlphaZero还是不会玩扑克,也不清楚能否玩好不完全信息游戏。
  实现超级扑克AI的方法有很大的不同,扑克游戏依赖于博弈论的推理,来保证个人信息的有效隐藏。其他许多大型游戏AI的训练都受到了博弈论推理和搜索的启发,包括Hanabi纸牌游戏AI、The Resistance棋盘游戏AI、Bridge桥牌游戏AI、AlphaStar星际争霸II游戏AI等。
  2019年1月,AlphaStar对战星际争霸II职业选手
  这里的每个进展仍然是基于一款游戏,并使用了一些特定领域的知识和结构来实现强大的性能。
  DeepMind研发的AlphaZero等系统擅长国际象棋等完全信息游戏,而加拿大阿尔伯特大学研发的DeepStack、卡耐基梅隆大学研发的Libratus等算法在扑克等不完全信息游戏中表现出色。
  对此,DeepMind研发了一种新的算法Player of Games(PoG),它使用了较少的领域知识,通过用自对弈(self-play)、搜索和博弈论推理来实现强大的性能。
  二、更通用的算法PoG:棋盘、扑克游戏都擅长
  无论是解决交通拥堵问题的道路规划,还是合同谈判、与顾客沟通等互动任务,都要考虑和平衡人们的偏好,这与游戏策略非常相似。AI系统可能通过协调、合作和群体或组织之间的互动而获益。像Player of Games这样的系统,能推断其他人的目标和动机,使其与他人成功合作。
  要玩好完全的信息游戏,需要相当多的预见性和计划。玩家必须处理他们在棋盘上看到的东西,并决定他们的对手可能会做什么,同时努力实现最终的胜利目标。不完全信息游戏则要求玩家考虑隐藏的信息,并思考下一步应该如何行动才能获胜,包括可能的虚张声势或组队对抗对手。
  DeepMind称,Player of Games是首个"通用且健全的搜索算法",在完全和不完全的信息游戏中都实现了强大的性能。
  Player of Games(PoG)主要由两部分组成:1)一种新的生长树反事实遗憾最小化(GT-CFR);2)一种通过游戏结果和递归子搜索来训练价值-策略网络的合理自对弈。
  Player of Games训练过程:Actor通过自对弈收集数据,Trainer在分布式网络上单独运行
  在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
  Player of Games有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
  虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
  此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
  在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
  苏格兰场的抽象图,Player of Games能够持续获胜
  在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
  不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
  在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。
  尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了"人类顶级业余选手"的水平,甚至可能达到了专业水平。
  Player of Games在德州扑克比赛中与公开可用的Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛。
  不同智能体在德州扑克、苏格兰场游戏中的比赛结果
  结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
  同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是"显著"击败了它。
  三、研究关键挑战:训练成本太高
  施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。
  实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
  "人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。"他谈道,"让这些算法更加通用是一项令人兴奋的研究。"
  当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
  即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
  对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
  据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
  结语:游戏AI正助力突破认知及推理挑战
  目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
  随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
  "一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。"这个在Player of Games论文最后中被提及的问题,还没有明确的答案。

传奇世界为什么那么多人喜欢玩传奇?因为每个人都会抵抗不了游戏的诱惑,还有自己内心需要一种成就感,在传奇里面当上老大,装备牛B点的还可以满足自己需要的激情,从传奇里面找到属于自己的天地,超出平凡的生活,成为一方霸主!Apple和Google公布年度奖项后,我们发现了游戏发行的未来趋势就在上个礼拜,谷歌的GooglePlay和苹果的AppStore分别公布了2021年度最佳App榜单,这些榜单是为表彰做出积极文化贡献的应用和游戏,中国的IT企业和游戏公司早已是这王者荣耀S26赛季迎来皮肤雨,已知计划有14款,美猴王有望返场Hello,大家好,这里是兔八哥聊游戏!关注我,为您带来不一样的游戏理解!王者荣耀2021年被称为传说年,因为从开年到现在,已经推出了16款传说品质的皮肤,包括限定传说,而且皮肤总eStar和狼队会师胜者组决赛,携手锁定前3,大概率包揽冠亚了KPL季后赛第一轮的比赛全部结束了,4天时间打完了4场BO7比赛,包含了2场败者组以及2场胜者组的较量。在败者组中,RW战队41横扫AG超玩会,DYG42大胜MTG,双双携手晋级到沫子晒出两张图引发热议,粉丝指出脚底发黄,湿气大随着电竞行业不断发展,很多优秀的年轻人都开始引入这个行业。不管是男生还是女生,他们对电竞都有一种向往。在这期间也涌现出了很多优秀的电竞行业者,沫子就算是主播行业中的佼佼者。不仅拥有LOLS12最无脑的英雄!土匪流巨魔,不出神话1人拆10塔大家好我是没有感情的Aggro电竞江小风。自从新版本开始以来,相比不少玩家都被巨魔这个英雄恶心坏了,大乱斗里面的冰川帝国指令巨魔堪称版本毒瘤,只要队伍中有1个长手可以触发帝国指令,真实人数翻5倍!steam上多少玩家是国内的阿根廷人?steam作为全球知名的游戏平台,许多玩家都能在这平台上,买到自己心怡的游戏,然而要说哪个国家的游戏需求最多,那当然要数阿根廷了。作为一个近4500万人的小国,在steam上阿根廷cyrin携手clid加盟FPX,组果粒组合!新赛季基本稳了导语大家好这里是小懒电竞哈非常感谢看官老爷们大力支持。近日已爆料cyrin果子哥已经加入FPX,和clid组成中野组合。说起clid是在lpl京东打过两个赛季,今年加入三星geng传奇游戏交易BUG,你遇到过哪里?冰冻三尺,非一日之寒,大家好我是鹿七。今天我就给大家盘点一下,传奇曾经bug交易bug,比如在和对方交易的过程中,交易金额为一百万金币。现在自己的背包里放一百万零一金币,和对方交易10款好玩的沙盒游戏推荐,方块方舟能用枪械和恐龙对战在不少玩家的游戏生涯里,或多或少都接触过沙盒游戏。这类题材的游戏中不乏经典,接下来不妨来盘点十款超好玩的沙盒游戏吧。第一款为方块方舟,只要一提到恐龙题材,大家的脑海里自然而然就会浮游戏道具奖励异常,英雄联盟手游官方回应将进行回收IT之家12月6日消息,昨日晚间,针对活动中魄罗币奖励异常一事,英雄联盟手游官方发布公告称对于部分用户异常获得额外奖励的用户,该部分奖励内容将会进行回收。公告指出,12月4日晚间,
梦泪B站首秀宣布重磅消息,将复出参加AIC,备战亚运会最近几年,电竞行业绝对是当下的热门,涌现出一大批影响力十足的主播和职业选手。如果提到王者荣耀,肯定有玩家会想到梦泪。他是这款手游标志性的职业选手之一,曾经一手精湛的韩信打野风光无限新老玩家都能玩得爽!全面升级的CFHD能否再续12年辉煌?说起3亿鼠标的梦想这句广告词,相信经历了网游黄金十年的玩家肯定还记忆犹新。穿越火线自07年运营至今,早已成为FPS玩家心中图腾般的存在。但毕竟是一位征战了12年的老将,在如今越来越梦泪哔哩哔哩首播透露,即将复出参加AIC,同时备战明年亚运会最近梦泪与哔哩哔哩正式签约,并于9月25日下午五点在b站开启了首播,梦泪刚刚完成了自己的人生大事,与鸽子兮订婚领证后终于又回到了直播间,粉丝们也是激动不已。在当天的直播中,除了常规别具一格的烧脑战斗!王者世界开创策略新回合早期的网络游戏,受限于硬件的计算能力,大多都采用回合制的方式进行战斗。而随着硬件的发展,即时战斗游戏愈发流行,回合制却没有因此被历史淘汰。究其原因,是因为回合制独有的策略性难以被替RW无心加花云,有此双C夫复何求?秋季赛让二追三获得首胜据报,因为渡劫玩吕布瞎跳大,独创边核流坦边,而后被RW换下,由之前的冠军边路小宋担任首发。在秋季赛刚开始的时候,小宋也是作为首发进行了比赛,但是因为了解的人都知道,小宋是战边玩的比皇宫追加史诗佛系玩家又增机缘随着韩服追加了根特皇宫掉落史诗,100版本将迎来全副本掉SS的时代,又多了一个获取SS的渠道,虽然几率不高,但对休闲玩家来说偶尔来个小惊喜也不错。其实这次的追加掉落更多是为了照顾一穿云入海,无所不能?这款手游把探索世界玩出了花穿云入海,无所不能,这是很多玩家们心中梦寐以求的游戏画面。而对于传统的MMO游戏来说,飞行入水其实早已不是什么新鲜事。不过,令满怀期待的玩家们遗憾的是,多数MMO游戏所谓的飞行,不梦想世界3新职业天师养成全解析,魔神副本通关小技巧来啦梦想世界3已于3月5日全平台公测,在延续梦想世界招式装备召唤兽等核心与特色系统的基础上,梦想世界再度推出了改变玩法的全新职业天师。这一备受玩家期待的职业体验究竟如何,这一职业的出现RPG神作联动开启,梦幻模拟战X闪之轨迹高策略日式王道幻想RPG手游梦幻模拟战自公测以来,就凭借着它上乘的原画质量和富有策略性的战棋玩法吸引了大批玩家。与此同时,作为ACG文化的一部分,它也时常与各大经典IP联动,先后推空闲时间有限主流副本收益与耗时时间总感觉不够用,明明都安排好了,可就是感觉不够用,忙完了一天工作回到家,洗漱完吃完饭坐下来玩个游戏换换脑子吧,突然发现还没玩够就该睡觉了上文描述的情景,想必很多玩家都是这样,就是剑侠世界3展示真实天气变化玩家又一个会呼吸的江湖?智能手机时代,手游市场竞争越来越激烈,游戏种类越来越多,各大游戏厂商也开始了精细化的市场布局,其中武侠MMORPG手游也是近几年厮杀比较激烈的赛道。比如鹅厂的天刀手游,猪厂的一梦江