跳转至

强化学习

约 30 个字 预计阅读时间不到 1 分钟

1.马尔可夫决策过程(MDP)

2.epsilon-贪心

3.Softmax

4.Q-learning

5.Sarsa

6.Actor-Critic

7.SAC

8.深度Q网络

9.策略梯度