培训和验证
训练和模拟强化学习代理
为了学习最优策略,强化学习代理通过反复的试错过程与环境相互作用。在训练过程中,代理调整其策略表示的参数以实现长期回报的最大化。Reinforcement Learning Toolbox™软件提供训练代理和通过仿真验证训练结果的功能。有关更多信息,请参见训练强化学习代理.
功能
火车 |
在指定的环境中训练强化学习代理 |
rlTrainingOptions |
训练强化学习代理的选项 |
sim卡 |
在指定的环境中模拟一个训练有素的强化学习代理 |
rlSimulationOptions |
模拟强化学习环境的选项 |
块
RL代理 | 强化学习剂 |
主题
训练与模拟基础
通过在特定环境中训练代理来找到最优策略。
训练q学习和SARSA代理在MATLAB中求解网格世界®.
在一般马尔可夫决策过程环境中训练强化学习代理。
使用在Simulink中建模的植物进行强化学习训练控制器金宝app®作为训练环境。
本港的列车代理MATLAB环境
训练深度q学习网络代理对MATLAB建模的车杆系统进行平衡。
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。
训练一个带基线的策略梯度来控制MATLAB建模的双积分器系统。
训练一个actor- critical agent来平衡MATLAB建模的车-杆系统。
使用基于图像的观察信号训练强化学习代理。
使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。
本港的列车代理金宝app环境
训练Deep Q-network代理平衡Simulink中建模的钟摆。金宝app
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。金宝app
训练一个强化学习代理来平衡一个摆的Simulink模型,该模型在总线信号中包含观察结果。金宝app
训练一个深度确定性的政策梯度代理来摆动和平衡一个模型中的车杆系统Simscape™多体™.