代理
使用常用算法(如SARSA、DQN、DDPG和A2C)创建和配置强化学习代理
强化学习代理接收来自环境的观察和奖励。使用它的策略,智能体根据观察和奖励选择一个行动,并将该行动发送给环境。在训练过程中,智能体根据动作、观察和奖励不断更新策略参数。这样做可以让智能体学习给定环境和奖励信号的最优策略。
强化学习工具箱™软件提供了使用几种常见算法的强化学习代理,如SARSA、DQN、DDPG和A2C。您还可以通过创建自己的自定义代理来实现其他代理算法。有关更多信息,请参见强化学习代理.
有关定义策略表示的详细信息,请参见创建策略和值函数表示.
功能
主题
您可以使用几种标准强化学习算法之一创建代理,也可以定义自己的自定义代理。
为强化学习创建Q-learning代理。
创建用于强化学习的SARSA代理。
创建用于强化学习的DQN代理。
创建用于强化学习的DDPG代理。
创建用于强化学习的PG代理。
创建用于强化学习的AC代理。
创建用于强化学习的PPO代理。
创建使用自定义强化学习算法的代理。