新浪网

阿尔法狗新版本问世:无需人类知识

观察者网

关注

确定不再关注此人吗

【观察者网综合】谷歌子公司DeepMind当地时间10月18日发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏。这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。

DeepMind网站截图

该公司表示,AlphaGo Zero的研发与其前身有很大不同。研究团队不是根据已知的人类发展战略使AI智能化,而是经过短暂的训练使软件能够轻松击败此前的版本。 AlphaGo Zero能不断更新自己的游戏知识,越来越好。

据Deepmind介绍,AlphaGoZero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后通过将这个神经网络与强大的搜索算法结合,然后就可以实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。

这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGoZero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。“日拱一卒,功不唐捐”,最终的神经网络越来越精确,AlphaGoZero也变得更强。

经过三天的不间断比赛,Zero能够击败去年已经战胜人类围棋世界冠军的AlphaGo版本。后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件。经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。事实上,AlphaGo Zero连续赢得了100场比赛,取得全胜战绩。

发布于:上海

特别声明:以上文章内容仅代表作者本人观点,不代表 新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发布后的30日内与 新浪网联系。
加载中...