Master 就是 AlphaGo 升级版！60 连胜背后看专家怎么说 06月25日更新

2017 年 1 月 4 日晚上，Master 完胜第 59 盘棋的时候，突然发声自认：“我是 AlphaGo 的黄博士”，Master 之前以横扫千军的姿态战胜几乎所有中国的围棋大师，包括“棋圣”聂卫平和柯洁。本文带来新智元智库专家白硕、邓侃的独家解读。同时，中国围棋 AI 的一名开发者也透露了他的看法：Master 的水平略有些让人失望。新智元还采访了中国围棋队总教练俞斌，他在文中谈了自己的看法和理解。这一次，机器可能不再藉用人类经验，而是凭借自我对弈和学习战胜了人类，让人类认识到另一个“真理”的存在。从某种程度上来说，这是一个新的“纪元”的开启。

1 月 4 日晚上，之前横扫围棋界的神秘大师“Master”忽然发声，自揭身份，它写道：我是 AlphaGo 黄博士。

此时，Master 刚刚取得第 59 场不败纪录，将对战人类棋手的纪录变为 59：0。之前，人们的猜测是Master 在完成 60 场比赛后，会隐退或者发声。但是，没有人想到，在 59 场的时候，Master 自己表明了身份。

官方声明：

Master 已经在线上平台上接连战胜了聂卫平、柯洁、朴廷桓、唐韦星、范廷钰、王古力、周俊勋和黄云嵩等多位围棋高手。

战胜“棋圣”，黄博士是谁？

2017 年下午 3 点 04 分，聂卫平执白三又四分之一子之差负于 Master，Master 取得第 54 胜！

聂卫平在围棋圈有“棋圣”之称，只是这次，他也拿 Master 没办法。对弈结束后，Master 用繁体字打出了“谢谢聂老师”的消息。这个时候，其实 Master 的身份已经有所暗示了。后来 Master 所说的“黄博士”，指的是黄士杰博士。黄博士是台湾人。

如果大家有看 3 月份李世乭与 AlphaGo 对奕的话，应该会注意到在李世乭对面有个将 AlphaGo 的棋步下到棋盘，并且将李世乭的棋步再输到电脑上的人。这位就是 Google DeepMind 的资深研究员，也是 AlphaGo 的主要程式开发者、台湾出身的黄士杰博士。

▲ 黄士杰（前左）在替 AlphaGo 执子。

黄士杰博士毕业于台湾师范大学，博士论文就是以“应用于电脑围棋之蒙地卡罗树状搜寻算法的新启发式算法”，本身也是业余六段的围棋棋手。

之前，黄士杰在接受 Engadget 的采访时曾说，如果再给 AlphaGo 一年半载的话，说不定李世乭真的就是史上唯一赢过 AlphaGo 一场的人了……

果然，半载之后，我们看到令人叹服的结果。

Master 的技术没有想像得那么好？

对于此次掀起风暴的 Master，新智元智库专家白硕评价说：

第一，并不意外。如果世界上还有另外一个团队达到这样的水平反而是意外。

第二，又有进步。现在的 AlphaGo 水平比去年战胜李世乭的时候发挥更稳定、对人类棋手更有启发性，对人类观众更有观赏性，导致人类对棋理的认识正在酝酿重大的突破。

第三，还有潜力。按现在势头发展，基于对弈棋谱的深度学习和左右互搏的增强学习，正在形成良性互动的局面，但愿这一阶段不要太快结束。

第四，除了不断增强对弈能力外，让机器以人类能理解的方式讲述其棋路，以全新的体验变革人类传授和学习围棋的方式，其意义不亚于战胜人类。

新智元问及其他的机器包括国内的一些围棋 AI 是否有机会超越 Master 呢？是否需要重大算法突破才能破解 Master 的时间积累优势？

白硕说：“我知道有人在做。如果能大幅提高算法的效率，就意味着在同样时间内可以遍历更多有意义的变化，增强学习会做得越好。个人判断，算法上的优化仍有空间，赶超仍有机会。未来机器之间的对弈会是新的看点。”

然而，也有专业人士表示有些失望。一名要求匿名的中国某大型网络公司 AI 开发者对新智元表示，Master 横扫人类棋手毫不意外，但是对过程有点失望，Master 的技术没有想像得那么好，毕竟去年 7 月份 Aja Huang 在一次演讲中透露可以让顶尖棋手 2 子，半年过去了，看不出一定能让 2 子。也许这并不是最新版。

棋风奔放怪异，因为没有学习过人类棋谱？

在 DeepMind 官方宣布之前，“Master”的身份激发了多方猜测，有不少人认为这就是 AlphaGo 的升级版，但与后者不同的是“Master”的招法极其奔放，推翻了很多人类棋手常走的定式，棋风与去年 3 月的 AlphaGo 大不相同。

值得注意的是，DeepMind 公司创始人 Hassabis 曾在一次采访中透露，他们正在尝试训练一个没有学习过人类棋谱的人工智能，而这可能就是 Master 和 AlphaGo 不同的原因。

CMU 博士邓侃对新智元表示：

3 月份 AlphaGo 与李世乭对决第一盘，取得胜利后，就说明算法已经超越人类顶级高手。接下去的几盘，AlphaGo 赢了，这是预料之中。输了一盘，反倒有点奇怪。因为算法只会越变越强大。

随着训练越来越强化，AlphaGo 的棋艺越来越精致，这是自然而然的趋势。战胜所有人类高手，只不过是时间的问题。但是看不出（现在的）AlphaGo 的算法，有本质突破。至少没有读到 DeepMind 在这个领域的新论文。

AlphaGo 系统中，有 Monte Carlo tree search（蒙地卡罗树状搜寻算法），不妨把它理解为左右手互博，互博时间越长，实际上就是把各种可能的对弈方案，统统演练一遍。所以，AlphaGo 的训练时间越长，它对各种对弈方案的了解就越全面。

在自我对弈中成长起来的新 AlphaGo，可能完全不需要人类棋谱。

被认为与 AlphaGo“必有一战”的世界第一柯洁，在这次对战中也败下阵来，但是柯洁在微博上写的感想倒是很值得深思。

他写道：“新的风暴即将来袭。我从 3 月份到现在研究了大半年的围棋软件，无数次的理论、实践，就是想知道电脑到底强在哪里。昨夜辗转反侧，不想竟一夜难眠，人类数千年的实战演练进化，电脑却告诉我们人类全是错的。我觉得，甚至没有一个人沾到围棋真理的边。但我想说，从现在开始，我们棋手将结合电脑，迈进全新的领域达到全新的境界。”

专访中国围棋队总教练俞斌：慢棋是人类最后的机会，但是悬念不大

在 Master 身份确定后，新智元第一时间联系了中国围棋队总教练俞斌进行专访。

新智元：您觉得人类棋手还有机会吗？

俞斌：基本上没有。只留有一丝悬念，就是长时间的慢棋，但只是悬念，我判断慢棋也不行。

新智元：如果下慢棋，人类棋手最后的突破口可能是什么呢？

俞斌：慢棋人的错误会少很多，但能否一争胜负有悬念。感觉可能性很小。

新智元：之前有人认为，人类棋手以后只和人类比，而机器棋手只会和机器棋手对决了，您认为围棋最后是这样吗？

俞斌：人与人比会，机器与机器比也有，但不会只是这两种。人与机器、人带机器，用时、让子等等，还是会有不少比的类型的。也许会有机器参加的团队赛等。

新智元：看来机器的加入反而有了更多玩法。那么您认为机器的出现，看起来像人类的天花板，人类围棋是否会放下胜负心，真正达到人和人对围棋本身的享受呢？

俞斌：哲学问题。围棋是胜负的游戏。享受的是胜负的乐趣。有人工智能高手，并不影响享受围棋的乐趣。没有胜负而享受围棋，我理解不了。这是我个人的哲学观点。

一次横扫千军的网络对战，Master 的进击之路

2016 年 12 月 29 日晚上 7 点多，一位名叫“Master”的新手登录弈城，起初没有高手搭理，但在战胜谢尔豪四段、孟泰龄六段、於之莹五段、韩一洲四段、乔智健四段后这个账号热度陡增。这晚 Master 十战全胜，已注定其出世不凡。

第二天中午“Master”再度现身，在对王昊洋六段、严在明三段等职业棋手 4 连胜后，终于引出了韩国第一人朴廷桓九段。重头戏开始上演，结果也是重量级的，朴廷桓在必败局面下超时负。此结果在高手中掀波，接着等级分排名第 7 的连笑七段登场挑战，却连败两场！值得注意的是，紧接着 Master 与账号为“吻别”的网络棋手交锋两次，均以中盘获胜。弈城网工作人员表示，“吻别”很有可能就是拥有 4 个世界冠军头衔的当今世界围棋第一人柯洁。如果“吻别”真是柯洁，那就意味着 Master 对当今中、韩第一人的战绩是 6：0。

31 日，“Master”又连续战胜各大挑战者，其中新科百灵杯冠军陈耀烨九段也以失败告终，最后的最后，这位堪比“扫地僧”的神秘高手连续 30 盘不败，像是在逗大伙玩似的来了句：“今天累了，明天休息一天。”

最终败在“Master”棋下的有江维杰九段、辜梓豪五段、朴永训九段、柁嘉熹九段、井山裕太九段、孟泰龄六段、金志锡九段……

连一旁观战的柯洁九段都大惊失色：“从来没见过这样的招法，围棋还能这么下？”为此他感叹：看 Master 的着法，等于说以前学的围棋都是错误的，原来学棋的时候要被骂的着法现在 Master 都下出来了。同样的，知乎网友 @赵小康评论，Master 对阵这些围棋高手，“大多数对局都是中盘取胜，人类数千年时间总结出的定式、大局观在 Master 面前显得陈腐可笑。”

2017 年 1 月 3 日 9：30，棋手古力九段按捺不住，最终发出 10 万元悬赏，奖励给战胜 Master 的勇士。但其后又有 4 位顶尖棋手被击败……

不过就在 51 场连胜之后，1 月 4 日，“Master”第 52 盘以和棋结束，“Master”的 51 连胜纪录就此终止。这场比赛中，“Master”挑战中国围棋职业选手陈耀烨。 “Master”执黑棋、陈耀烨执白棋，30 秒 3 次快棋。不过陈耀烨出现了断线情况，30 秒没有落子，系统判定和棋。

今日，“Master”出现以来最受瞩目的比赛在 Master 和聂卫平之间进行。年届 64 岁的中国棋圣和“Master”的比赛也是这个人工智能程式进行的第 54 局比赛。本局“Master”特意把比赛用时调整为每方 1 分钟一手，以示对聂卫平的尊敬。

最终本局进行至手，执白的聂卫平以 7 目半的劣势落败。本局“Master”在右上角下出犀利的手段，吃掉了聂卫平一块棋由此确立优势，并保持到了最后。而随着棋圣聂卫平落败，“Master”将自己的不败纪录延续至 54 场，中日韩高手无一能在这次“快棋”对决中取胜。

4 日晚，随着古力败下阵来，Master 对人类棋手获得了 60 场不败的纪录。

AlphaGo 技术原理

AlphaGo 从 3 月份至今，经过 10 个月的发展，已经有了非常长足的进步，不过要追溯其技术原理，最详细的还是 3 月份发表在 Nature 的封面论文：Mastering the game of Go with deep neural networks and tree search（透过深度神经网露和树状搜寻，学会围棋游戏）。

AlphaGo 给围棋带来了新方法，它背后主要的方法是 Value Networks（价值网络）和 Policy Networks（策略网络），其中 Value Networks 评估棋盘位置，Policy Networks 选择下棋步法。这些神经网络模型透过一种新的方法训练，结合人类专家比赛中学到的监督学习，以及在自己和自己下棋（Self-Play）中学到强化学习。这不需要任何前瞻式的 Lookahead Search，神经网络玩围棋游戏的能力，就达到了最先进的蒙地卡罗树状搜寻算法的级别（这种算法模拟了上千种随机自己和自己下棋的结果）。我们也引入了一种新搜寻算法，这种算法将蒙地卡罗模拟和价值、策略网络结合起来。

透过将 Value Networks、Policy Networks 与树状搜寻结合起来，AlphaGo 达到了专业围棋水准，让我们看到了希望：在其他看起来无法完成的领域中，AI 也可以达到人类级别的表现！

DeepMind 团队对围棋项目的介绍：

（本文由 36Kr 授权转载；首图来源：YouTube 截图）

Master 就是 AlphaGo 升级版！60 连胜背后看专家怎么说

战胜“棋圣”，黄博士是谁？

Master 的技术没有想像得那么好？

棋风奔放怪异，因为没有学习过人类棋谱？

在自我对弈中成长起来的新 AlphaGo，可能完全不需要人类棋谱。

专访中国围棋队总教练俞斌：慢棋是人类最后的机会，但是悬念不大

一次横扫千军的网络对战，Master 的进击之路

AlphaGo 技术原理

延伸阅读：

热门推荐

日本尺度超大的综艺节目连主持人都大喊“玩这么大可以吗”

只为避税，制药巨头辉瑞、爱力根 1,600 亿美元合并

Google地图使用教学全攻略！让您搞懂如何活用导航、路径规划、街景所有功能

2015下半年DMM最强AV女优排名出炉波多野结衣排名仅第三

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太地区仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

英国、香港疫情大爆发！没打疫苗致死率高 31 倍

重训比有氧运动更能改善睡眠品质

国光生技 2 月营收年增 2,489.91%，选株百分百预判 WHO 流感病毒株

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

关于我们

新闻资讯

意见反馈

网站地图