强化学习入门（一）

基本概念

State ：

State Space 状态空间：状态的集合

Action : 动作

State Transition 某个状态经过一个动作后转换到另一个状态的过程

通常情况下，通过条件概率描述状态转移
$$
p(s_2|s1,a2)=1
$$

$$
p(s_i|s1,a2)=0 ( \forall i \neq2)
$$

以上公式的表达的意思为，从状态S1通过动作a2转移到状态的s2的概率为1,转移到除s2以外的状态的概率为0

Policy：策略

告诉agent在某个状态下应该采取什么动作

在强化学习中，策略的表达方式也通过概率表示，记做
$$
\pi(a_1|s_1) = 0
$$

$$
\pi(a_2|s_1) = 1
$$

$$
\pi(a_3|s_1) = 0
$$
…

表示在状态s1采取动作ai的概率，它们的集合即为状态s1的策略通过拍pi表示

策略也可以通过表格表示

Reward: 收益在采取一个行动后获得的一个实数

正数的reward表示我们鼓励这种行为

负数的reward表示我们惩罚这种行为

reward为0 在一定程度上意味着鼓励

同样可以通过表格的格式表示reward

局限性：只能表示确定的reward : 即采取某个动作后一定会得到一个固定的收益。

对于不确定的收益也可以如上通过条件概率表示
$$
p(r=-1|s_1,a_1) =1 , p(r \neq -1|s_1,a_1)=0
$$
其表示在状态s1采取a1获得收益为-1的概率为1，不为-1的概率为0

Trajectory ：状态-动作-收益的链

return 为Trajectory所经过的轨迹所获得的收益的和在这个例子中 return = 0+0+0+1 = 1

通过比较return能够判断哪个策略是更好的

Discounted return : 为了防止在某个状态s 通过动作a后仍然停留在原状态且获取收益为1导致动作a不断进行最后收益发散的情况，通过收益衰减计算的收益返回值

Episode ：

Episode 为一个有限的Trajectory（会到达一个终态）有episode 的任务为 episode tasks，若没有episode的tasks为continuing tasks/。

马尔可夫决策过程 MDP:

三大要素：

状态、动作、收益

概率分布：

状态转移概率分布、收益概率分布

策略：在某个状态采取动作a的概率

无后效性，采取某个动作的概率和历史中执行过的动作无关。

强化学习入门（一）

http://thenorthrem.github.io/2024/07/05/强化学习入门（一）/

作者

Yeti

发布于

2024年7月5日

许可协议