文档

培训和验证

训练和模拟强化学习代理

为了学习最优策略,强化学习代理通过反复的试错过程与环境相互作用。在训练过程中,代理调整其策略表示的参数以实现长期回报的最大化。Reinforcement Learning Toolbox™软件提供训练代理和通过仿真验证训练结果的功能。有关更多信息,请参见训练强化学习代理

功能

火车 在指定的环境中训练强化学习代理
rlTrainingOptions 训练强化学习代理的选项
sim卡 在指定的环境中模拟一个训练有素的强化学习代理
rlSimulationOptions 模拟强化学习环境的选项

RL代理 强化学习剂

主题

训练与模拟基础

训练强化学习代理

通过在特定环境中训练代理来找到最优策略。

在基本网格世界中训练强化学习代理

训练q学习和SARSA代理在MATLAB中求解网格世界®

在MDP环境中训练强化学习代理

在一般马尔可夫决策过程环境中训练强化学习代理。

创建Simul金宝appink环境和Train Agent

使用在Simulink中建模的植物进行强化学习训练控制器金宝app®作为训练环境。

并行计算

用并行计算训练交流代理平衡车极系统

使用异步并行计算训练actor- critical代理。

利用并行计算训练DQN代理进行车道保持辅助

使用并行计算为自动驾驶应用程序训练强化学习代理。

本港的列车代理MATLAB环境

训练DQN代理平衡车杆系统

训练深度q学习网络代理对MATLAB建模的车杆系统进行平衡。

训练DDPG代理控制双积分器系统

训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。

训练PG代理人平衡车杆系统

训练一个策略梯度代理来平衡MATLAB建模的车杆系统。

用基线训练PG代理控制双积分器系统

训练一个带基线的策略梯度来控制MATLAB建模的双积分器系统。

训练交流装置平衡车杆系统

训练一个actor- critical agent来平衡MATLAB建模的车-杆系统。

利用图像观察训练DDPG代理上摆和平衡摆

使用基于图像的观察信号训练强化学习代理。

使用深度网络设计器创建代理和使用图像观察训练

使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。

本港的列车代理金宝app环境

训练DQN代理上摆和平衡摆

训练Deep Q-network代理平衡Simulink中建模的钟摆。金宝app

训练DDPG代理上摆和平衡摆

训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app

训练DDPG代理用总线信号上摆和平衡摆

训练一个强化学习代理来平衡一个摆的Simulink模型,该模型在总线信号中包含观察结果。金宝app

训练DDPG代理人摆动和平衡车杆系统

训练一个深度确定性的政策梯度代理来摆动和平衡一个模型中的车杆系统Simscape™多体™

培训报关员

培训自定义LQR代理

训练使用自定义强化学习算法的代理。

特色的例子