文档

代理

使用常用算法(如SARSA、DQN、DDPG和A2C)创建和配置强化学习代理

强化学习代理接收来自环境的观察和奖励。使用它的策略,智能体根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,智能体根据动作、观察和奖励不断更新策略参数。这样做可以让智能体学习给定环境和奖励信号的最优策略。

强化学习工具箱™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息,请参见强化学习代理

有关定义策略表示的详细信息,请参见创建策略和值函数表示

功能

全部展开

rlQAgent 创建Q-learning强化学习代理
rlSARSAAgent 创建SARSA强化学习代理
rlDQNAgent 创建深度q -网络强化学习代理
rlDDPGAgent 创建深度确定性策略梯度强化学习代理
rlPGAgent 创建策略梯度强化学习代理
rlACAgent 创建行动者-评论家强化学习代理
rlPPOAgent 创建近端策略优化强化学习代理
rlQAgentOptions 创建q学习代理的选项
rlSARSAAgentOptions 为SARSA代理创建选项
rlDQNAgentOptions 为DQN代理创建选项
rlDDPGAgentOptions 为DDPG代理创建选项
rlPGAgentOptions 为PG代理创建选项
rlACAgentOptions 创建AC代理选项
rlPPOAgentOptions 创建PPO代理选项
getActor 从强化学习代理中获得参与者表示
getCritic 从强化学习代理中获得评论家表示
setActor 设置强化学习代理的参与者表示
setCritic 设置强化学习代理的批评表示

主题

强化学习代理

您可以使用几种标准强化学习算法之一创建代理,也可以定义自己的自定义代理。

q学习的代理

为强化学习创建Q-learning代理。

撒尔沙代理

创建用于强化学习的SARSA代理。

深度q -网络代理

创建用于强化学习的DQN代理。

深度确定性策略梯度代理

创建用于强化学习的DDPG代理。

政策梯度代理

创建用于强化学习的PG代理。

Actor-Critic代理

创建用于强化学习的AC代理。

近端策略优化代理

创建用于强化学习的PPO代理。

自定义代理

创建使用自定义强化学习算法的代理。