政策和价值功能
定义策略和值函数表示,如深度神经网络和Q表
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。
强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示.
强化学习策略是一种映射,它根据对环境的观察选择要采取的行动。在训练过程中,智能体调整其策略表示的参数以最大化长期奖励。
强化学习工具箱™软件为演员和评论家提供对象表示。参与者表示选择要采取的最佳操作的策略。批评家代表了评估当前政策价值的价值函数。根据您的应用程序和选择的代理,您可以使用深度神经网络、线性基函数或查找表定义策略和值函数。有关更多信息,请参见创建策略和值函数表示.