围棋下不过人工智能

20年前，人和电脑还能下下棋，互有胜负。但是近几年人工智能迅猛发展，顶级棋手在人工智能面前只有被虐的份儿。

最近韩国的一个围棋手，好像被怀疑使用了人工智能，所以才能取得不错的战绩，战胜了所有的中日棋手。

说到底象棋和围棋也就那么几百亿步组合走法，如果你能把所有的组合走法都记住，你肯定会战无不胜，最多和棋。论记忆力人脑肯定比不上电脑，下棋输给人工智能也就理所当然了。

这种情况下，人类棋手下棋就像中超联赛，只能在中超比赛范围内窝里横，在强大的巴西队或法国队面前就是个小菜，法国队和巴西队就好比强大的人工智能。

想想看你只要拿一部手机，下载一个象棋软件APP，就能完虐街上那些下棋高手，甚至可以完爆市冠军省冠军，甚至国手。

这种情况的出现，会让人觉得下棋有些索然寡味，无法享受到让人惊心动魄的高水平棋艺竞技，免不了心存遗憾。

围棋人机大战柯洁不敌AlphaGo是怎么回事？

由谷歌英国研究团队开发的计算机系统在围棋比赛中击败了职业棋手。作为一种古老的东方棋类游戏，围棋强调策略和直觉。过去数十年，围棋一直是人工智能专家未能攻克的堡垒。然而，人工智能正在这一领域取得重要突破。

此前，计算机已在其他多种比赛，例如国际象棋、奥赛罗棋和智力竞赛《危险边缘》中胜过了人类对手。然而，围棋是一种具有2500多年历史的古老技艺，其复杂程度远超国际象棋，因此人类高手此前几乎不费吹灰之力就能胜过即使最强的计算机系统。本月早些时候，谷歌以外的人工智能专家已提出这样的问题，即人工智能在围棋领域的突破能否迅速实现。而直到去年，大部分人仍认为，计算机击败职业棋手还需要10年时间。

然而，谷歌已经做到了这一点。法国研究者雷米·库洛姆（Remi Coulom）此前曾开发了全球最强大的人工智能围棋程序。他表示：“这一天的到来比我想象中更快。”

谷歌于2014年收购了自称为“人工智能领域阿波罗项目 ”的DeepMind 。去年10月，DeepMind的研究团队在伦敦办公室里主持了人工智能与人类选手的较量。DeepMind的这一系统名为AlphaGo ，而它的对手是欧洲围棋冠军樊麾。在《自然》杂志编辑和英国围棋协会裁判的监督下，AlphaGo在五番棋比赛中取得了5:0的压倒性胜利。《自然》杂志编辑坦古伊·乔阿德（Tanguy Chouard）博士在本周二的媒体电话会议上表示：“无论作为研究者还是编辑，这都是我职业生涯中最令人兴奋的时刻之一。

自然》杂志发表的一篇论文介绍了DeepMind的系统。这一系统利用了多种技术，其中也包括越来越重要的一种人工智能技术，即深度学习。利用海量的人类高手棋谱（总步数约达3000万），DeepMind的研究团队训练AlphaGo自主学习围棋。然而这仅仅只是第一步。从理论上来说，这样的训练最多只能培养出与最优秀人类选手同等棋力的人工智能。而为了击败最优秀的人类选手，研究团队使这一系统自己与自己对弈。这带来了新的数据，而这些数据可被用于训练新的人工智能系统，最终胜过顶尖高手。

DeepMind负责人德米斯·哈萨比斯（Demis Hassabis）表示：“最重要的一点在于，AlphaGo不仅仅是专家系统，遵循人为设定的规则。实际上，这使用了通用的机器学习技术，能自行探索如何在围棋比赛中取胜。”

人工智能的这次胜利并不新鲜。谷歌、Facebook和微软等互联网服务早已利用深度学习技术去识别照片和语音，或是理解自然语言。DeepMind的技术结合了深度学习、增强学习，以及其他方法。关于现实世界机器人如何学习日常任务，并对周围环境做出响应，这指明了未来的方向。哈萨比斯表示：“这非常适合机器人。”

他同时认为，这些方法能加速科学研究，通过在工作中引入人工智能系统，科学家将可以取得更多成果。“这一系统能处理规模更大的数据集，分析得出结构化信息并提供给人类专家，从而提高效率。系统甚至能向人类专家提供方式方法的建议，协助带来突破。 ”

不过目前，围棋仍是他的关注重点。在关起门来击败一名职业选手之后，哈萨比斯及其团队将目标瞄准了全球顶尖的围棋选手。3月中旬，AlphaGo将在韩国公开挑战李世石。李世石拥有的国际比赛冠军头衔数排名第二，而过去10年中，李世石有着最高的胜率。哈萨比斯认为，李世石就是“围棋界的费德勒” 。

比国际象棋更难

2014年初，库洛姆的围棋软件Crazystone在日本的巡回赛中挑战了依田纪基九段，并取得了胜利。不过，这一胜利的成色不足：Crazystone获得了四子的让先。当时，库洛姆预言，在没有让先的情况下，人工智能击败顶尖围棋高手还需要10年时间。

这一挑战的难度在于围棋本身。此前，在合理时间内，任何超级计算机都没有足够的处理能力，去预判每种可能的着法会带来什么样的后续结果。1997年，IBM“深蓝”击败了国际象棋大师卡斯帕罗夫，当时这台超级计算机采用了“暴力计算”的方式。从本质上来看，“深蓝 ”分析了每一步走法可能出现的各种结果。然而，这样做在围棋比赛中行不通。在国际象棋比赛中，一个回合可能的走法平均为35种。而围棋比赛采用了19x19的棋盘，平均每回合走法有250种。哈萨比斯指出，围棋棋盘上的棋型类型要比宇宙中的原子总数还要多。

利用名为“蒙特卡洛树搜索”的方法，类似Crazystone的系统能完成更多步的预判。而结合其他一些技术，计算机可以完成对多种可能性的必要分析。这样的计算机能击败一些不错的围棋选手，但距离顶尖高手还有很大差距。对真正的高手来说，直觉是很重要的一部分。这些棋手会根据棋盘上棋型来选择如何行动，而不是精确分析每一种着法可能会带来的结果。哈萨比斯本人也是围棋选手，他表示：“良好的棋型看起来就很漂亮。这似乎遵循某种美学。这也是这一游戏数千年来历久不衰的原因。”

不过，在进入2015年之后，一些人工智能专家，包括爱丁堡大学、Facebook和DeepMind的研究人员，开始探索利用深度学习技术去解决围棋的难题。他们设想，深度学习技术能模拟围棋比赛中必要的人类直觉。哈萨比斯表示：“围棋有着许多暗示，模式匹配很重要。深度学习可以做得很好。 ”

自我增强

深度学习的基础是神经网络。这种由软硬件构成的网络能模拟人脑中的神经元，其运转并非依靠“暴力计算”和人工制定的规则。神经网络会分析大量数据，以从事某项任务的“学习” 。例如，如果向神经网络输入足够多的袋熊照片，那么它就能识别出袋熊。如果向神经网络输入足够多的单词发音，那么它就能识别你的语音。如果向神经网络输入足够多的围棋棋谱，那么它就能学会如何下围棋。

在DeepMind 、爱丁堡大学和Facebook ，研究人员希望，通过“观察 ”棋盘棋型，神经网络能掌握下围棋的方法。正如Facebook近期在一篇论文中所说，这一技术的运行情况良好。通过深度学习和蒙特卡洛树方法的结合，Facebook的系统已经击败了一些人类选手。

不过，DeepMind在此基础上更进一步。在学习了3000万步人类选手的围棋下法之后，这一神经网络预测人类选手下一步走法的准确率达到57% ，远高于之前的44%。随后，哈萨比斯及其团队对这一神经网络进行了小幅调整，使其与自己对弈，这种做法被称作增强学习。在这一过程中，神经网络可以了解，什么样的走法能带来最好的结果。

DeepMind研究员大卫·希维尔（David Silver）表示：“通过在神经网络之间进行数百万局的对弈，AlphaGo学会自己发现新策略，并逐步改进。”

希维尔表示，这使得AlphaGo能胜过其他围棋软件，包括Crazystone 。随后，研究人员将结果输入至另一个神经网络。在首先判断对手的下一步行动之后，这一神经网络能利用同样的技巧去预判每一步的结果。这与“深蓝”等较老的系统类似，而不同之处在于AlphaGo能在过程中进行学习，并分析更多数据，不再使用暴力计算的方法去判断所有可能的结果。通过这种方式，AlphaGo不仅能胜过当前的人工智能系统，还能击败人类高手。

专用芯片

与大部分先进的神经网络类似，DeepMind的系统运行在基于GPU（图形处理芯片）的计算机上。GPU最初的设计目的是游戏和其他图像应用的图形渲染，但近年来研究表明，这类芯片也非常适合深度学习技术。哈萨比斯表示，DeepMind的系统在配备多个GPU芯片的单台计算机上有着相当好的表现，但为了挑战樊麾，研究人员搭建了更庞大的计算机网络，其中包括170块GPU卡和1200个标准CPU处理器。这一庞大的计算机网络对AlphaGo进行了训练，并参与了比赛。

哈萨比斯表示，在与李世石的比赛中，AlphaGo将采用同样的硬件配置。目前，他们正在持续改进这一人工智能系统。为了准备与李世石的比赛，他们还需要互联网连接。哈萨比斯表示：“我们正在安装自己的光缆。 ”

库洛姆和其他一些专家指出，与李世石的比赛将更困难。不过，库洛姆已经下注DeepMind。过去10年中，他一直希望开发出能胜过顶尖围棋高手的系统，他认为，这一系统现在就在这里。他表示：“我正在购买一些GPU 。”

未来之路

AlphaGo的重要性不言而喻。这一技术不仅可以应用于机器人和科学研究，也适合其他许多任务，例如类似Siri的移动语音助手以及金融投资决策。深度学习创业公司Skymind创始人克里斯·尼克尔森（Chris Nicholson）表示：“你可以将其用于任何具有对抗性的问题，例如需要用到策略的各种比赛，以及战争和商业交易。”

对一些人来说，这种情况令人担忧，尤其考虑到DeepMind的系统已经有能力自学围棋。AlphaGo的学习素材并不来自人类，而是可以通过自行生成数据来自我指导。近几个月，特斯拉创始人伊隆·马斯克（Elon Musk）等知名人士曾表示，这样的人工智能系统最终将超越人类智力，突破人类的控制。

不过，DeepMind的系统受到了哈萨比斯及其团队的严格控制。AlphaGo被用于最复杂的棋类游戏，但这仍只是一款游戏。实际上，AlphaGo距离真正的人类智慧还有遥远的距离，远远没有达到超级智能的水平。

华盛顿大学专注于人工智能的法学教授、科技政策实验室创始人瑞安·卡洛（Ryan Calo）表示：“这仍是一种高度结构化的情况，并非真正人类水平的理解力。 ”不过，AlphaGo指明了未来的方向。如果DeepMind的人工智能系统能理解围棋，那么就能理解更多信息。卡洛表示：“宇宙只不过是一场更大的围棋游戏。”

为什么围棋是唯一一种人类能战胜电脑的游戏

2017年5月23日，浙江嘉兴，中国棋手柯洁九段和围棋人工智能程序”阿尔法狗“的首场对决在浙江乌镇举行。本次对决于5月23日至27日在乌镇展开三番棋决战。在“人机终极对决”第一局中，当今世界排名第一的中国围棋选手柯洁，输给了Google旗下的人工智能程序AlphaGo 。

中国围棋峰会首局战罢，柯洁小负AlphaGo，赛后举行发布会。柯洁表示，布局也有备战和研究，开始也有针对性下法，下三三后又点角，这都是AlphaGo喜欢下的，但没想到AlphaGo应对非常好，很多招法我都没见过，包括那步刺（白50），让我很震惊。首先断完以后，他变得很厚，还有很多劫材，可以说是一石二鸟。真是太厉害了，我输得没什么脾气。

DeepMind创始人哈萨比斯：今天的比赛非常精彩，胜负差距非常小，我想棋手们都在学习Master的棋，希望能寻找弱点，今天也下出了Master的招法，樊麾也告诉我，AlphaGo下出了非常漂亮的招法。我也非常期待接下来的比赛，逼出AlphaGo的极限。

围棋有3361 种局面，而可观测到的宇宙，原子数量才1080 。

围棋难的地方在于它的估值函数非常不平滑，差一个子盘面就可能天翻地覆，同时状态空间大，也没有全局的结构。这两点加起来，迫使目前计算机只能用穷举法并且因此进展缓慢。

但人能下得好，能在几百个选择中知道哪几个位置值得考虑，说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括，但所需的信息量还是要比状态空间本身的数目要少得多（得多）。一句话，穷举状态并不是最终目标，就算以后超超级计算机能做到这一点，也不能说解决了人工智能。只有找到能学出规律的学习算法，才是解决问题的根本手段