阿尔法狗新版本问世:无需人类知识
【观察者网综合】谷歌子公司DeepMind当地时间10月18日发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。
DeepMind网站截图
该公司表示,AlphaGo Zero的研发与其前身有很大不同。研究团队不是根据已知的人类发展战略使AI智能化,而是经过短暂的训练使软件能够轻松击败此前的版本。 AlphaGo Zero能不断更新自己的游戏知识,越来越好。
据Deepmind介绍,AlphaGoZero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后通过将这个神经网络与强大的搜索算法结合,然后就可以实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。
这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGoZero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。“日拱一卒,功不唐捐”,最终的神经网络越来越精确,AlphaGoZero也变得更强。
经过三天的不间断比赛,Zero能够击败去年已经战胜人类围棋世界冠军的AlphaGo版本。后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件。经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。事实上,AlphaGo Zero连续赢得了100场比赛,取得全胜战绩。
发布于:上海