编者按:本文来自微信大众号“学术头条”(ID:SciTouTiao),作者:学术君,36氪经授权发布。
美国核算机学会(ACM)今日宣告,将 2019 年 ACM 核算奖颁发 AlphaGo 研制团队领导者 David Silver,以赞誉他为核算机游戏体现带来的突破性开展。
与“核算机界的诺贝尔奖”图灵奖不同,ACM 核算奖(ACM Prize in Computing)每年颁发在核算机范畴里有突出奉献的年青学者。
Silver 目上一任伦敦大学学院(UCL)教授、谷歌旗下人工智能公司 DeepMind 首席科学家。作为深度强化学习范畴的领军人物,Silver 最主要的成果便是领导了 AlphaGo 研制团队,在围棋竞赛中打败了国际冠军柯洁和李世石。
Silver 奇妙地将深度学习、强化学习、传统树查找算法和大规模核算的思想结合起来,开发出了 AlphaGo 算法。AlphaGo 被以为是人工智能研讨的里程碑,并被《新科学家》杂志列为曩昔十年的十大发现之一。AlphaGo 也是第一个打败人类工作围棋选手、第一个打败围棋国际冠军的人工智能机器人。
2016 年 3 月,阿尔法围棋与围棋国际冠军、工作九段棋手李世石进行围棋人机大战,以 4 比 1 的总比分取胜;2016 年底 2017年头,该程序在我国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,接连 60 局无一败绩;2017 年 5 月,在我国乌镇围棋峰会上,它与排名国际第一的国际围棋冠军柯洁对战,以 3 比 0 的总比分取胜。
2017 年 10 月 19 日,在国际学术期刊《天然》(Nature)上宣布的一篇研讨论文中,Silver 团队陈述新版程序 AlphaGo Zero:从空白状况学起,在无任何人类输入的条件下,它能够敏捷自学围棋,并以 100:0 的战绩打败“长辈”。AlphaZero 在国际象棋、围棋、围棋等游戏中都取得了超人的体现,展示了史无前例的游戏办法的普遍性。
ACM 主席 Cherri M. Pancake 表明:“在人工智能范畴,很少有其他研讨人员能像 David Silver 相同让人如此振奋。”Infosys 首席运营官 Pravin Rao 表明:“ David Silver 为深度强化学习做出了根底性奉献,然后敏捷促进了人工智能的开展。当电脑能够在杂乱的棋盘游戏中打败国际冠军时,它现已激起了大众的想象力,并将年青的研讨人员吸引到机器学习等范畴。
重要的是,Silver 和他的搭档开发的结构将在未来的许多年里,为人工智能的商业和工业实践运用供给奉献。”ACM 核算奖旨在赞誉研讨成果产生了深远影响和广泛含义的中青年核算机科学家,奖金为 25 万美元,由印度科技公司印孚瑟斯(Infosys Ltd)捐献。颁奖仪式将于 2020 年 6 月 20 日在美国旧金山举办,到时 Silver 将正式承受奖项。
人工智能玩游戏
自上世纪 50 时代以来,教核算机程序与人类或其他核算机进行游戏竞赛,一直是人工智能研讨的中心实践项目。人类与机器之间的竞赛,也一直是衡量人工智能的标尺。核算机程序经过做出一系列决议,来到达取胜的方针,这样的一个进程被看作是对人类思想的模仿和应战。游戏竞赛也给研讨人员供给了很简单量化的成果,比方“电脑遵守规矩了吗?得分了吗?或许赢了游戏吗?”
在这一范畴的前期,研讨人员开发了一些程序来与人类在跳棋上竞赛,而在曩昔的几十年里,又呈现了越来越杂乱的国际象棋程序。1997 年,ACM 资助了一场竞赛,IBM 的“深蓝”(DeepBlue)成为第一台打败国际象棋国际冠军加里·卡斯帕罗夫(Gary Kasparov)的电脑程序,这也是一个具有分水岭含义的时间。
但关于研讨人员来说,方针不单单是开发赢得游戏的程序,而是将游戏作为开发具有模仿人类智能才能的机器的试金石。2016 年 3 月,全国际数百万人在电视上观看了 AlphaGo 打败围棋国际冠军李世石(Lee Sedol)的竞赛。但这仅仅是 David Silver 团队惊人成果影响的开端。他对深度强化学习的见地现已被运用于许多范畴,比方进步英国电网的功率,下降谷歌数据中心的能耗,以及为欧洲航天局规划太空探测器的轨迹。”Cherri M. Pancake说道。
Silver 是深度强化学习的最重要的奉献者之一,在深度强化学习这种东西中,算法经过在交互式环境中重复实验来学习,依据运转进程中堆集的信息不断调整,并运用不同数学处理层次的核算模型——人工神经网络与强化学习战略有效地结合起来,对试错成果进行评价。该算法不需要对每一个或许的成果进行核算,而是进行猜测,然后更有效地履行给定的使命。
阿尔法狗
2500 年前,我国发明晰围棋游戏,至今依然盛行,尤其是在亚洲。围棋被以为比象棋要杂乱得多,由于棋手能够做出更多潜在的动作,并且游戏能够有更多的办法来进行。Silver 在艾伯塔大学(University of Alberta)攻读博士学位时,就开端探究开发一种能够把握围棋的核算机程序的或许性。Silver 开发 AlphaGo 的要害见地,是将深层神经网络与核算机游戏中运用的算法 Monte Carlo 树查找相结合。
Monte Carlo 树查找的一个长处是,在寻求游戏中最佳感知战略的一起,该算法还在不断研讨其他代替计划。2016 年 3 月,AlphaGo 打败国际围棋冠军李世石被誉为AI里程碑式的时间。Silver 和他的搭档在 2016 年宣布在《天然》杂志上的论文《用深层神经网络和树查找把握围棋游戏》中宣布了支撑 AlphaGo 的根底技能。
AlphaGo Zero、AlphaZero和AlphaStar
Silver 和他在 DeepMind 的团队一直在开发新的算法,这些算法极大地进步了核算机游戏的开展水平,并取得了许多被以为人工智能体系无法完成的成果。在开发 AlphaGo Zero 算法时,Silver 和他的合作者证明晰程序能够在不触摸人类专家游戏的情况下把握围棋。该算法彻底经过在没有一点人类数据或先验常识的情况下自己来学习,而在进一步的迭代版别中,算法乃至不需要知道规矩。
后来,DeepMind 团队的 AlphaZero 在国际象棋、将棋和围棋中也取得了超人的体现。在国际象棋中,AlphaZero 轻松打败了国际核算机国际象棋冠军 Stockfish ,这是一个由大师和国际象棋编程专家规划的高性能程序。就在上一年,由 Silver 领导的 DeepMind 团队开发的AlphaStar ,把握了多人电子竞技游戏《星际争霸 II》,该游戏被视为 AI 学习体系面对的一项艰巨应战。
关于 David Silver
David Silver 是 DeepMind 强化学习研讨小组的负责人,也是伦敦大学学院的核算机科学教授。他地点的 Google 子公司 DeepMind 企图将机器学习和体系神经科学方面的最佳技能结合起来,以构建功强壮的通用学习算法。
Silver 别离于 1997 年和 2000 年取得剑桥大学的学士和硕士学位。1998 年,他和他人一起创立了视频游戏公司 Elixir Studios,并在那里担任首席技能官兼首席程序员。后来 Silver 回来学术界,并于 2009 年取得了艾伯塔大学的核算机科学博士学位。
2015 年,Silver 和他的搭档宣布的一篇题为《经过深度强化学习完成人类水平操控》(Human Level Control Through Deep reinforcement learning)的开创性论文中,描绘了他们将强化学习与人工神经网络相结合的办法。该论文宣布在《天然》(Nature)杂志上,被引用了近1万次,对该范畴产生了巨大的影响。
随后,Silver 和他的搭档持续用新的技能完善这些深度强化学习算法,这些算法依然是机器学习中最广泛运用的东西之一。Silver 的很多荣誉包含:马文·明克西人工智能出色成果奖(2018年)、皇家工程院对英国工程出色奉献银奖(2017年)、门萨基金会人工智能范畴最佳科学发现奖(2017年)。
关于 ACM 核算奖
ACM 核算奖旨在赞誉研讨成果产生了深远影响和广泛含义的中青年核算机科学家。该奖项的奖金为 25 万美元,资金支撑由 Infosys Ltd.供给。ACM 核算奖曾经被称为 ACM Infosys 基金会核算科学奖。ACM 奖取得者将被约请参与海德堡桂冠论坛,这是一个年度网络活动,汇集了来自国际各地的年青研讨人员和 ACM 图灵奖、阿贝尔奖、菲尔兹奖和奈凡林纳奖的取得者。
关于 ACM
核算机科学协会(ACM)是国际上最大的教育和科学核算机学会,它将核算机教育工作者、研讨人员和专业技能人员联合起来,以激起对话、共享资源并应对该范畴的应战。ACM 经过强壮的领导力、最高规范的推行以及对技能杰出的认可,增强了核算机工作的团体声响。ACM 经过供给终身学习、工作开展和专业网络的机会来支撑其成员的专业生长。
参考资料:https://www.acm.org/media-center/2020/april/acm-prize-2019