从AlphaGo 人机大战谈起_AlphaGo_人机大战

从AlphaGo 人机大战谈起

2016/5/25 9:36:17

最近Google DeepMind 公司的AlphaGo与李世石的人机大战引起了全球新闻媒体和公众对于人工智能的高度关注，其影响力远远超出了围棋领域。

DeepMind 是一家什么样的公司

DeepMind 是一家英国的人工智能公司，2014年1月被Google以5亿英镑收购。该公司在人工智能方面最有名的成果当首推2013年提出的DQN（Deep Q Network，一种深度学习和强化学习相结合的深度强化学习算法模型），在只有原始像素和游戏系统的打分作为输入的情况下，人工智能系统成功的通过38天的自学习掌握了Atari游戏，到目前为止在至少49种Atari 2600 游戏上达到甚至超过了人类顶级玩家的水平。其成果先后发表在NIPS和Nature上，在人工智能领域引起震动。目前DeepMind除了AlphaGo外，还有健康医疗项目。

计算机围棋与人工智能

国际象棋较容易设计局面评价函数（以擒王为目的，不同棋子有不同的权重），变化和搜索的深度相对有限，可采用Alpha-Beta剪枝算法进行有效搜索。IBM的“深蓝”在1997年就击败了卡斯帕罗夫。

而围棋的变化总数极大，宋代沈括在梦溪笔谈中提到的算法结果为3的361次方，即“连书‘万字’四十三”（棋盘19x19, 每个点都有黑子，白子，空白三种可能）。最近美国普林斯顿大学的研究人员计算出精确的合法棋局总数为2.08x10的170次方，这个数值比宇宙中的基本粒子总数还要多。并且围棋很难建立明确的局面评价函数，同时局面评价函数又及其不平滑。这两点导致简单的暴力搜索在围棋上不适用。

在深度学习引入计算机围棋领域前，最好的结果是基于蒙特卡洛树搜索（MCTS）的UCT算法。通俗的说就是计算机进行大量的模拟对局，随机走子直到对局结束，根据胜率统计决定当前局面的最佳选择。这样就避开了局面评价函数的建立。然而人类对局时对于当前局面的棋形是有“棋感”的，这种“棋感”很大程度上帮助棋手评估局面并判断预测重点的行棋选择，即相当于快速有效的减小了搜索空间。这种“棋感”所对应的特征选取和模式识别让人自然的联系起近年来在AI领域如日中天的深度学习技术。这次的AlphaGo实际上是整合了MCTS，深度学习和强化学习三项技术。

深度学习是在传统神经网络基础上的发展，其主要特征之一是网络层数相比传统浅层（受制于计算能力，数据量以及BP算法的梯度衰减等原因，一般为3层）神经网络增多，模型复杂度大大提高，故有更强的非线性表达能力。

深度学习的最大优势之一是无监督的特征学习，传统的机器学习面临的一个最大问题就是特征的人工设计和选取，深度学习则能通过大量数据学习出有效的抽象特征表达。

深度学习的出现和蓬勃发展有其内部和外部因素的推动。内因就是包括前述的网络模型（如DNN，DCNN，SAE，RBM，DBN等）的改进，以及训练算法的改进。外部因素包括海量数据（防止过拟合，并且可以使用无标签数据）的获得和高性能计算的发展。自2006年Hinton提出深度学习的概念后尤其是2012年在ImageNet上获得巨大突破以来，以深度卷积神经网络为代表的深度学习以催枯拉朽之势横扫计算机视觉、语音识别、自然语言处理等领域。在互联网加大数据的时代背景下，已成为处理非结构化数据的一大利器。

强化学习（Reinforcement Learning)是一个目标驱动的连续决策过程。即学习怎样根据当前的状态决定动作，以最大化所获得的回报信号。学习算法并未被告知如何执行动作，而是通过试验去发现怎样选择动作以获得最大的回报，这个回报是对动作好坏的评价。通常情况下，动作不仅获得当前即时的回报，而且会影响下一个状态乃至所有后续状态的回报。

强化学习的最终目的是决策过程中整体的回报函数期望最大化。通过试错进行搜索以及延时的回报是强化学习的两个最显著的特征。强化学习已在包括机器人控制，通信，金融，博弈等在内的众多领域获得成功应用。

回到计算机围棋上，AlphaGo 通过深度卷积神经网络的训练，建立了行棋策略网络（Policy Network）和价值网络（Value Network）。训练数据集采用了十数万的人类棋谱，形成3千万的局面数据作为输入。AlphaGo通过策略网络决定行棋判断（着棋点可按分值排序），通过价值网络进行局面判断。有趣的是，AlphaGo还能通过大量的自我对弈（对弈的行棋法则是根据策略网络决定的），根据对弈结果，应用强化学习获得更新的策略网络和价值网络。这就是所谓AlphaGo通过双手互博而得到自主学习能力。根据DeepMind 的CEO Demise Hassabis 透露，他们下一步还有一个更大胆的计划，即不需要任何人类棋谱的输入，单纯由“BetaGo” 通过自我对弈和强化学习，获得更优的行棋网络模型。这是因为人类的围棋下法未必是最优的，利用它训练出的初始化行棋网络模型有可能陷入到局部极值。

策略网络使得AlphaGo只需针对少数有价值的可能着棋点进行蒙特卡洛树搜索，即有效的减少了蒙特卡洛树搜索的宽度。而价值网络使得蒙特卡洛树搜索时的模拟对弈在局面估值达到一定阈值后即停止，无需进行至终局。这就有效的减少了蒙特卡洛树搜索的深度。蒙特卡洛树搜索、深度学习和强化学习的有效结合使得AlphaGo获得了空前的成功。

人机大战后的思考

首先对于围棋界，不禁让人反思当今职业围棋是否太过功利，太拘泥于胜负而过分纠缠于边角的变化而缺乏创新？在AlphaGo横空出世前一年仙逝的吴清源大师在晚年提出的“二十一世纪的围棋”，其精神实质就如同AlphaGo所展示给我们的，是一种整体围棋。尽管离“围棋之神”还有不小的距离，AlphaGo 作为超人类的围棋存在，也有助于我们去探索一系列真相：黑棋的先着效率如何?目前的贴目是否合理？围棋的实质是什么？取消座子还棋头真的是一种进步吗？以九三分投、大飞守角为代表的快速打散局面的中国古棋“八卦”布局在座子还棋头规则下是否合理？“当湖十局”的质量到底如何？中国古棋圣黄龙士、范西屏、施襄夏与日本古棋圣道策、丈和、秀策相比谁更强？

此次的人机大战也让我们看到了资本的力量和一个成功的商业营销案例。相较于FaceBook在计算机围棋项目“Dark Forest”上投入的寥寥两人，DeepMind 在Nature上的论文就有署名作者20人，其中两位并列第一作者David Silver 和Aja Huang更是在博士、博士后阶段有10余年的计算机围棋经验。AlphaGo 使用了1202个CPU和176个GPU于分布式计算，展现了Google强大的工程能力。人机大战前Google更是做足了保密工作，事实上其内部评测人机大战用的V18版本可让去年10月份击败欧洲冠军樊麾二段的版本四子，Elo等级分在4000分之上，远超李世石的3530和目前世界排名第一的柯洁的3630分。人机大战进一步展现了Google在人工智能方面的全球引领者的企业形象，最终让Google的股票市值增加愈400亿美元。

人工智能已在包括机器人、通信、互联网、商业智能、保险、金融、健康医疗等众多领域融入到我们的生活中并正在改变着我们的生活。例如IBM的Watson作为认知计算系统的代表，应用了先进的自然语言处理，信息检索，知识表达，自动推理和机器学习技术。其代表性产品包括著名的自动问答系统DeepQA以及和MSK合作的肿瘤治疗系统。

事实上我国传统医学的“表象学”走的也是类似神经网络这条路，在当时的技术条件下，无法对多数疾病的发病机理做出科学的分析判断，于是把人视作一个黑盒子的复杂系统，输入是脉搏等各种体征，输出是判断得到的疾病类别。老中医某种意义上相当于通过大量的训练数据，训练得到类似神经网络的人体疾病判断模型，因而能对疾病进行判断。

在现代条件下，对于复杂的人体系统，也难以在细胞层面、分子层面对各种病症进行科学解释。幸运的是，通过如CT、MRI、PET、血液分析等种种医疗仪器设备，更多科学的体征数据可以获得。学习训练用的数学模型更加复杂，优化算法更加科学，人工智能系统更加具备在高纬数据空间发掘有意义的数据模式的能力。包括深度学习、强化学习在内的各种人工智能技术也广泛应用于机器人对环境的自主感知、自主决策、各种动作运动控制、人机交互，无人机飞行和姿态控制，自动无人驾驶等领域。

结束语

我们也应看到，目前人工智能的发展尚处在初级阶段，距离人类有思维意识的真正意义上的智能还有很长的路要走。清代棋圣范西屏在其毕生著述《桃花泉弈谱》自序中写道，“勋生今之时，为今之弈，后此者，又安知其不愈出愈奇”。在当今知识大爆炸、技术大变革的风云时代，我们更应有积极的心态来迎接、学习、应用、创新新技术。

作为人工智能机器人系统方案商，深圳市祈飞科技有限公司正积极应对挑战，在不断突破自我，创新科技，专注于人工智能的研发。祈飞机器人以祈飞研究院为核心技术研发主体，下设人工智能、图像视觉、多维感知、控制系统、精密机械实验室等，持续在人工智能机器人系统主体应用领域进行研发投入，以祈飞智能机器人制造为集团供应链保障中心，以全球营销队伍为市场先锋，全力打造技术研发、智能制造、平台网络多维度创新型人工智能企业。

祈飞科技园

相信，随着人工智能技术的不断发展，人工智能化市场必将成为祈飞科技绚丽的舞台。

注：本文由祈飞科技（http://www.prafly.com）提供，转载请注明。