2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手
李世石
进行
围棋人机大战
,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在
中国乌镇围棋峰会
上,它与排名世界第一的世界围棋冠军
柯洁
对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。
2017年5月27日,在柯洁与阿尔法围棋的
人机大战
之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号
AlphaGo Zero
。
阿尔法围棋(AlphaGo)是一款围棋人工智能程序。其主要工作原理是“
深度学习
”。“深度学习”是指多层的
人工神经网络
和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个
数据集
合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
阿尔法围棋用到了很多新技术,如神经网络、深度学习、
蒙特卡洛树搜索
法等,使其实力有了
实质性
飞跃。美国脸书公司“黑暗森林”围棋软件的开发者
田渊栋
在网上发表分析文章说,阿尔法围棋系统主要由几个部分组成:一、策略网络(Policy Network),给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统。
[2-3]
柯洁与阿尔法围棋人机大战
阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些“大脑”是多层神经网络,跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络
处理图片
一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和
逻辑推理
。
第一大脑:落子选择器 (Move Picker)
阿尔法围棋(AlphaGo)的第一个神经网络大脑是“
监督学习
的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑
:棋局评估器 (Position Evaluator)
阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题,它不是去猜测具体下一步,而是在给定棋子位置情况下,预测每一个棋手赢棋的概率。这“局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于
阅读速度
提高很有帮助。通过分析归类潜在的未来局面的“好”与“坏”,阿尔法围棋能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的
随机性
元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
[3-5]
阿尔法围棋
操作过程
阿尔法围棋(AlphaGo)为了应对围棋的复杂性,结合了监督学习和强化学习的优势。它通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个
概率分布
。然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋将这两种
网络整合
进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了
训练数据
,此过程循环往复。
在获取棋局信息后,阿尔法围棋会根据策略网络(policy network)探索哪个位置同时具备高
潜在价值
和高可能性,进而决定最佳落子位置。在分配的
搜索时间
结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其
计算能力
之上加入近似人类的直觉判断。
2017年1月,谷歌DeepMind公司CEO哈萨比斯在德国
慕尼黑
DLD(数字、生活、设计)创新大会上宣布推出真正2.0版本的阿尔法围棋。其特点是摈弃了人类棋谱,只靠深度学习的方式成长起来挑战围棋的极限。
[6-7]
AlphaGo Zero强化学习下的自我对弈
阿尔法
围棋
(AlphaGo)此前的版本,结合了数百万人类围棋专家的
棋谱
,以及
强化学习
进行了自我训练。
AlphaGoZero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。
研发团队
只是让它自由随意地在棋盘上下棋,然后进行自我博弈。
据阿尔法围棋团队负责人
大卫·席尔瓦
(Dave Sliver)介绍,AlphaGoZero使用新的强化
学习方法
,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的
搜索算法
,进行了自我对弈。随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,阿尔法围棋团队发现,AlphaGoZero还独立发现了
游戏规则
,并走出了新策略,为围棋这项古老游戏带来了新的见解。
阿尔法围棋
一个大脑
AlphaGoZero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“
价值网络
”来预测每一步
棋后
的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。
阿尔法围棋
神经网络
AlphaGoZero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。
阿尔法围棋
对战机器
研究者让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%。
2017年5月26日,
中国乌镇围棋峰会
举行人机配对赛。对战双方为
古力
/阿尔法围棋组合和
连笑
/阿尔法围棋组合。最终连笑/阿尔法围棋组合逆转获得胜利。
[10-11]
阿尔法围棋战胜围棋世界冠军团队
2016年12月29日晚起到2017年1月4日晚,阿尔法围棋在
弈城围棋
网和野狐
围棋网
以“Master”为注册名,依次对战数十位人类顶尖围棋高手,取得60胜0负的辉煌战绩。
2017年5月23日到27日,在中国乌镇围棋峰会上,阿尔法围棋以3比0的总比分战胜排名世界第一的世界围棋冠军
柯洁
。在这次围棋峰会期间的2017年5月26日,阿尔法围棋还战胜了由
陈耀烨
、
唐韦星
、
周睿羊
、
时越
、
芈昱廷
五位世界冠军组成的围棋团队。
[4-5]
[12-15]
AlphaGo-Zero的训练时间轴
经过短短3天的自我训练,AlphaGo Zero就强势打败了此前战胜李世石的
旧版
AlphaGo,战绩是100:0的。经过40天的自我训练,AlphaGo Zero又打败了AlphaGo Master版本。“Master”曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的柯洁。
[16-17]
AlphaGo几个版本的排名情况
据公布的题为《在没有人类知识条件下掌握围棋游戏》的论文介绍,开发公司将“阿尔法围棋”的发展分为四个阶段,也就是四个版本,第一个版本即战胜樊麾时的人工智能,第二个版本是2016年战胜李世石的阿尔法围棋,第三个是在围棋对弈平台名为“Master”(大师)的版本,其在与人类顶尖棋手的较量中取得60胜0负的骄人战绩,而最新版的人工智能开始学习围棋3天后便以100:0横扫了第二版本的阿尔法围棋,学习40天后又战胜了在人类高手看来不可企及的第三个版本“大师”。
戴密斯·哈萨比斯
(Demis Hassabis),人工智能企业家,
DeepMind
Technologies公司创始人,人称“阿尔法围棋之父”。4岁开始下
国际象棋
,8岁自学编程,13岁获得
国际象棋大师
称号。17岁进入
剑桥大学
攻读
计算机科学
专业。在
大学里
,他开始学习围棋。2005年进入
伦敦大学学院
攻读
神经科学
博士,选择大脑中的
海马体
作为研究对象。两年后,他证明了5位因为海马体受伤而患上
健忘症
的病人,在畅想未来时也会面临障碍,并凭这项研究入选《科学》杂志的“年度
突破奖
”。2011年创办DeepMind Technologies公司,以“解决智能”为公司的终极目标。
阿尔法围棋设计团队部分成员
大卫·席尔瓦(David Silver),剑桥大学计算机科学学士、硕士,加拿大
阿尔伯塔大学
计算机科学博士,伦敦大学学院讲师,
Google
DeepMind研究员,阿尔法围棋主要设计者之一。
除上述人员之外,阿尔法围棋设计团队核心人员还有
黄士杰
(
Aja Huang
)、施恩·莱格(Shane Legg)和穆斯塔法·苏莱曼(Mustafa Suleyman)等。
[19-21]
“阿尔法围棋”(AlphaGo)能否代表
智能计算
发展方向还有争议,但比较一致的观点是,它象征着
计算机技术
已进入人工智能的新信息技术时代(
新IT
时代),其特征就是大数据、
大计算
、大决策,三位一体。它的智慧正在接近人类。
谷歌Deep mind首席执行官(CEO)
戴密斯·哈萨比斯
宣布“要将阿尔法围棋(AlphaGo)和医疗、机器人等进行结合”。因为它是人工智能,会自己学习,只要给它资料就可以移植。
据韩国《
朝鲜日报
》报道,为实现该计划,哈萨比斯2016年初在英国的初创公司“巴比伦”投资了2500万美元。巴比伦正在开发医生或患者说出症状后,在互联网上搜索医疗信息、寻找诊断和处方的人工智能APP(应用程序)。如果阿尔法围棋(AlphaGo)和“巴比伦”结合,诊断的准确度将得到划时代性提高。
在柯洁与阿尔法围棋的
围棋人机大战
三番棋结束后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。阿尔法围棋将进一步探索
医疗领域
,利用人工智能技术攻克现实
现代医学
中存在的种种难题。在
医疗资源
的现状下,人工智能的
深度学习
已经展现出了潜力,可以为医生提供
辅助工具
。实际上,对付人类棋手从来不是“阿尔法围棋”的目的,开发公司只是通过围棋来试探它的功力,而研发这一人工智能的最终目的是为了推动社会变革、改变人类命运。据悉,他们正积极与英国医疗机构和电力能源部门合作,以此提高看病效率和
能源效率
。
[22-25]
中国围棋职业九段棋手
聂卫平
:“Master(即阿尔法围棋升级版)技术全面,从来不犯错,这一点是其最大的优势,人类要打败它的话,必须在前半盘领先,然后
中盘
和
官子
阶段也不容出错,这样固然很难,但客观上也促进了人类棋手在围棋技术上的提高。”
世界排名第一的
围棋世界冠军
柯洁:“在我看来它(指阿尔法围棋)就是围棋上帝,能够打败一切。”“对于AlphaGo的自我进步来讲,人类太多余了。”
中国围棋世界冠军唐韦星:“看了之后不知道说什么,它(AlphaGo)确实不需要我们的知识,之前版本用了好几年,被这个才学了40天的打败似乎就是我们拖后腿了。”