郭原籍寺。
量子比特报告|微信官方账号QbitAI
上周,在DOTA2 TI8竞技场“假装失败”的OpenAI Five受到强化学习的提振。
其实不只是OpenAI Five,AlphaGo和AlphaGo Zero玩围棋,DeepMind DQN(deep Q-network)玩雅达利街机游戏。
都离不开强化学习。
现在,谷歌发布了一个基于TensorFlow的强化学习开源框架,叫做多巴胺。
此外,还有一群多巴胺教colab。
就像它的名字多巴胺一样,新的框架听起来令人兴奋。
清晰、简洁且易于使用
新框架的设计理念清晰简洁,所以代码比较紧凑,大概15个Python文件,基于街机学习环境(ALE)基准。
It integrates DQN, C51, Rainbow Proxy Simplified Edition and the implicit quantile network on ICML 2018.
可再生的
新框架中的代码被完整的测试覆盖,可以作为补充文档,也可以由ALE评估。
基准测试
为了让研究人员快速将他们的想法与现有方法进行比较,
该框架提供了基于DQN、C51、Rainbow agent简化版和隐式分位数网络游戏ALE基准的60个Atari游戏的完整训练数据。
以Python pickle文件和JSON数据文件的格式存储,放入可视化的网页中。
此外,新框架中还有经过训练的深度网络、原始统计日志和TensorBoard标记的TensorFlow。。文件。
门户开放源码框架资源
多巴胺谷歌博客:
https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
Dopamine github download:
https://github.com/google/dopamine/tree/master/docs#downloads
colabs:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md
游戏训练的可视化网页:
https://google.github.io/dopamine/baselines/plots.html
相关资料
ALE基准:
https://arxiv.org/abs/1207.4708
DQN(DeepMind):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
C51(ICML 2017):
https://arxiv.org/abs/1707.06887
Rainbow:
https://arxiv.org/abs/1710.02298
Implicit Quantile Networks(ICML 2018):
https://arxiv.org/abs/1806.06923
— 完—
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位QbitAI 头条号签约作者
'' 追踪AI技术和产品新动态
标题:游戏AI必备新框架,谷歌发布基于TensorFlow的「多巴胺」开源框架
链接:https://www.52hkw.com/news/rj/62741.html
版权:文章转载自网络,如有侵权,请联系删除!