强化学习工具箱

 

强化学习工具箱

使用强化学习设计和培训政策

开始:

强化学习代理

创建并配置强化学习代理,以在bet356平台和动态仿真模块中训练策略. 使用内置或开发自定义强化学习算法.

强化学习算法

使用深度Q-network (DQN)创建代理, 深度确定性策略梯度, 近端政策优化, 以及其他内置算法. 使用模板为培训策略开发自定义代理.

各种训练算法,包括SARSA、囊、DDPG等.

训练算法可在强化学习工具箱.

强化学习设计师App

交互式设计,训练和模拟强化学习代理. 将训练过的代理导出到bet356平台,以便进一步使用和部署.

利用深度神经网络表示策略和值函数

对于具有大状态-作用空间的复杂系统, 以编程方式定义深度神经网络策略, 使用层 深度学习工具箱,或与 深层网络设计师. 或者,使用工具箱建议的默认网络体系结构. 初始化策略,使用模仿学习来加速训练. 导入和导出ONNX模型,以实现与其他深度学习框架的互操作性.

动态仿真模块中的单智能体和多智能体强化学习

使用RL Agent块在动态仿真模块中创建和训练强化学习代理. 在动态仿真模块中使用RL Agent块的多个实例同时训练多个Agent (multi-agent reinforcement learning).

带有RL代理块的动态仿真模块模型.

动态仿真模块的强化学习代理块.

环境建模

创建bet356平台和动态仿真模块环境模型. 描述系统动力学,并为训练代理提供观察和奖励信号.

动态仿真模块和Simscape环境

使用动态仿真模块和Simscape™创建环境的模型. 在模型中指定观察、行动和奖励信号.

两足机器人的动态仿真模块环境模型.

两足机器人的动态仿真模块环境模型.

bet356平台环境中

使用bet356平台函数和类对环境进行建模. 在bet356平台文件中指定观察、行动和奖励变量.

三自由度火箭的<a href='http://kaxin.bajaringanatap.com'>bet356平台</a>环境.

三自由度火箭的bet356平台环境.

加速训练

利用GPU、云、分布式计算资源加快培训速度.

GPU加速

使用高性能NVIDIA加速深度神经网络训练和推理® gpu. 使用bet356平台 并行计算工具箱 以及大多数支持cuda的NVIDIA gpu 计算能力3.0或更高.

GPU硬件.

使用gpu加速训练.

代码生成和部署

将训练有素的策略部署到嵌入式设备或将它们与广泛的生产系统集成.

代码生成

使用 GPU编码器™ 从表示训练策略的bet356平台代码中生成优化的CUDA代码. 使用 bet356平台编码器™ 生成C/ c++代码来部署策略.

GPU Coder配置界面.

使用GPU编码器生成CUDA代码.

bet356平台编译器支持

使用 bet356平台编译器™ 而且 bet356平台编译器SDK™ 部署训练有素的策略作为独立的应用程序,C/ c++共享库,微软® .网络组件,Java® Python类,® 包.

创建独立应用程序的bet356平台编译器屏幕.

将策略打包和共享为独立程序.

参考例子

为机器人设计控制器和决策算法, 自动驾驶, 校准, 调度, 和其他应用程序.

调优、校准和调度

设计用于调优、校准和调度应用程序的强化学习策略.

一个配水系统,有三个水泵、水库和水箱.

水资源分配中的资源分配问题.

强化学习视频系列

观看这个系列的视频来学习更多关于强化学习的知识.