强化学习-贝尔曼公式 state value State Value 为Gt的期望值,全称为 State Value Function Return 和 StateValue的区别: return为从某个状态开始沿着某一条路径获取的收益,StateValue为该状态开始沿着不同路径能收获的收益的期望。 贝尔曼公式: 贝尔曼公式的作用即是用于对一个策略的好坏进行数值化表述,其通过计算策略的均值,由上文我们能知道策略可以 2024-07-08
强化学习入门(一) 基本概念State : State Space 状态空间: 状态的集合 Action : 动作 State Transition 某个状态经过一个动作后转换到另一个状态的过程 通常情况下,通过条件概率描述状态转移$$p(s_2|s1,a2)=1$$ $$p(s_i|s1,a2)=0 ( \forall i \neq2)$$ 以上公式的表达的意思为,从状态S1通过动作a2转移到状 2024-07-05
Mockito 源码解读(二) Mockito源码解读(二)前言这篇文章五一放完假后就开始起笔了,但由于工作要写需求和学校一些作业以及核心代码读起来很费劲一直拖到现在才写完。感觉写得也挺潦草,在解读mock的核心代码时遇到的许多特性都是之前没接触过的,比如byteBuddy框架和一些JavaAgent的机制,后续也得系统学一下字节码相关的知识。 在读的过程中确实觉得函数编写的比较复杂,难读懂。代码中间夹杂着一些与核心流程无关的优 2024-05-06
Mockito 源码解读 (一) Mockito源码解读(一)前言在bupt学计算机学到大三了,以前都是我拜读别人的博客,现在终于下定决心写点自己的的东西了,作为自己的第一篇正式上传到自己的博客网站的博客还是希望有一点含金量的。本人浑浑噩噩读到了大三下,转眼大三都过完了,技术没沉淀多少,学校学到的东西结完课就丢了。运气好靠着临时背的八股找到了一个实习,在实习的日子中能够在摸鱼的时候写点博客,增加点技术积累,希望能够将这个习惯在我的 2024-04-29