一文读懂AlphaGo背后的强化学习_alpha go应用又被叫什么学习系统 ...

监督学习 vs. 评估学习

对于很多感兴趣的问题，监督学习的范例没有办法给我们提供所需要的灵活性。监督学习和强化学习这两者之间最主要的区别在于收到的反馈是评估性的还是指导性的。指导性的反馈告诉你如何达到目标，而评估性的反馈则告诉你将会把目标完成到什么程度。监督学习以指导性的反馈为基础来解决问题，而强化学习则是基于评估性反馈来解决问题的。图像分类就是用带有指导性反馈的监督学习解决问题的一个实际例子；当算法尝试分类一些特定的数据时，它将从指导性的反馈中了解到哪个才是真正的类别。而另一方面，评估性的反馈仅仅告诉你完成目标的程度。如果你用评估性反馈来训练一个分类器，你的分类器可能会说“我认为这是一个仓鼠”，然后它会得到50分。但是，由于没有任何语境信息，我们不知道这 50 分是什么。我们需要进行其他的分类，探索50分意味着我们是准确或是不准确。或许10000分是一个更好的分值，因此我们还是不知道它是什么，除非我们尝试去对其他数据再进行分类。

猜到是仓鼠就可以得到两个金色星星和一个笑脸，而猜沙鼠能得到一个银色星星和一个大拇指

在我们感兴趣的很多问题中，评估性反馈的想法是更直观的，更易实现的。例如，想象一个控制着数据中心温度的系统。指导性反馈在这里似乎没有任何用处，你怎样告诉你的算法在任意给定的时间步中每个零件正确的设置是什么？评估性反馈在这里就将发挥它的用处了。你能很容易的知道在一个特定的时间段用了多少电，或者平均温度是多少，甚至有多少机器温度过高了等数据。这实际上就是谷歌使用强化学习解决这些问题的方式。让我们直接来学习吧。

马尔科夫决策过程

假定我们知道状态 s，如果未来的状态条件独立于过去的状态，那么状态 s 就具有马尔科夫性质。这意味着s描述了所有过去的状态直到现在的状态。如果这很难理解，那我们就用一个例子来解释，让这个问题显得更简单一点。假设一个球飞过空中，如果它的状态是由它的位置和速度决定，并足以描述它当前的位置和接下来的位置（不考虑物理模型和外界影响）。因此，这一状态就具备马尔科夫性质。但是，如果我们只知道这个球的位置不知道它的速度，它的状态就不再是马尔科夫。因为现在的状态并不是所有以前状态的归纳，我们需要以前的时间点所得到的信息去构建合适的球的模型。

强化学习通常可以建模为一个马尔科夫决策过程，即MDP(Markov Decision Process)。MDP是一个有向图

AlphaGo 首次将神经网络深度学习，强化学习，和MCTS用于围棋，并且取得了很大的成就。尽管 AlphaGo 成绩优异，但是由于 AlphaGo 的强大依靠了大量的专家数据和强大的计算资源。在是否智能这上面 AlphaGo 还是备受争议。下一节介绍 AlphaGo Zero,它的升级版， AlphaGo Zero没有借鉴人类的任何经验，就通过纯粹的强化学习，从0在很短的时间内就达到了很高的棋力水平，真的很让人期待！！！在强化学习中，虽然没有现成的答案，但是强化学习代理（`agent`）仍然必须决定如何行动（`action`）来完成它自己的任务。在没有训练数据的情况下，代理从经验中学习。它通过反复的试错来收集训练样本（“这个动作很好，那个动作很糟糕”），学习的目标就是使其长期奖励（`reward`）最大化。具体到《贪吃蛇》游戏，智能体就是我们控制的蛇，环境就是游戏界⾯，⾏为则是蛇的移动⽅向，奖励则是每吃掉⼀个果实得到的分数或者游戏失败的惩罚。在游戏开始时，蛇可能会随机选择⾏为，但随着不断地尝试和学习，蛇会逐渐发现哪些⾏为会带来正⾯奖励，哪些⾏为会导致游戏结束，然后调整⾃⼰的策略以获取更⾼的分数。强化学习的另⼀特⾊在于，它不仅着眼于眼前的短期收益，更重视未来的⻓期奖励。这就好像你在玩⼀个游戏，每到⼀个新的关卡，你都会尝试所有可能的⾏动，看看哪⼀个能得到最⾼的分数，然后在以后遇到这个关卡时，总是选择这个⾏动。本文转自：策略产品经理必读系列—第二讲强化学习 - 知乎 Pacman（吃豆人）的游戏介绍强化学习加州大学伯克利分校在上强化学习这门课程时使用的cousrwork的链接： http://ai.berkeley.edu/project_overview.html。前言：强化学习这个概念是2017年乌镇围棋峰会上Alpha Go战胜了当时世界排名第一的柯洁而被普通大众知道，后面随着强化学习在各大游戏比如王者荣耀中被应用，而被越来越多的人熟知。王者荣耀AI团队，甚至在顶级期刊AAAI上发表过... 如果说哪一个是被称之为人类智慧的最后一道防线的话，肯定就要数围棋了，可能很多人都不太相信，很多人也都觉得是人工智能，但其实并不是的。人工智能超过人脑的计算能力和超过人的控制能力再一次惊艳了世界，所以很多人都认为人工智能是计算机科学的一个分支，它能够了解人的各方面的行为，能够帮助人做各种各样的事情，所以大家都觉着人工智能比人类可能都还要更发达，在智慧方面也要比人类更高超。... 通过构建一个模型，个体具备了一定程度的独立思考能力，即在与环境发生实际交互之前思考各种可能的行为其对能带给环境及自身的改变。通过个体的思考以及联合其与环境的实际交互经验，个体在解决大规模MDP问题时可以取得更好的结果。 Policy-based reinforcement learningPolicy NetworksBehavior CloningTrain policy network using Policy gradientTrain the value networkMente Carlo Tree Search 本笔记整理自 (作者: Shusen Wang): https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=1827226606 强化学习（五）—— AlphaGo 与Alpha Zero1. AlphaGo 1.1 论文链接1.2 输入编码（State）1.3 训练及评估流程1.4 模仿学习（Behavior Cloning）1.5 策略网络依据策略梯度进行学习 1.6 价值网络训练1.7 Monte Carlo Tree Search1.7.1 Selection2.1 网络结构2. AlphaGo Zero2.1 论文链接 1. AlphaGo 1.1 论文链接查看原文 1.2 输入编码（State）棋盘大小：[19,19]