本文首先介绍了值函数近似(Value Approximation),然后分别结合 SARSA 和 Q-Learning 给出了两种 Q 函数近似的方法。通过分析线性函数作为估计函数的局限性,自然引入神经网络来进行非线性函数近似,引出了基于深度学习的 Q 函数估计网络:Deep Q-Network(DQN)。 1. 引言 2. 状态价值函数近似 2.1...
强化学习(值函数近似)
强化学习(时序差分法)
本文首先引入了随机近似理论,然后通过比较动态规划和蒙特卡洛,引出结合二者优势的时序差分法。通过分析可知,时序差分法是随机近似理论的一个特例。随后详细介绍了同轨策略下的时序差分控制(SARSA)、离轨策略下的时序差分控制(Q-Learning)和期望SARSA。最后介绍了基于价值的深度强化学习方法:Deep Q-Network(DQN)。 1. 引言 2. 随机近似理论 ...
强化学习(蒙特卡洛法)
本文介绍了强化学习的 model-free 方法——蒙特卡洛法。 1. 引言 2. 蒙特卡洛法 2.1. 大数定律与蒙特卡洛思想 2.2. 蒙特卡洛基础算法 2.2.1. 蒙特卡洛采样 2.2.2. 蒙特卡洛价值估计 2.2.3. 算法流程 ...
强化学习(动态规划)
本文介绍了强化学习的动态规划法(Dynamic Programming,DP),采用动态规划的思想,分别介绍策略迭代和价值迭代方法。 1. 强化学习问题的求解 2. 动态规划 2.1. 策略迭代 2.1.1. 策略评估 2.1.2. 策略改进 2.1.3. 算法流程 ...
强化学习(马尔可夫决策过程)
本文介绍了强化学习的基本概念和模型,主要包括马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程。 1. 强化学习 1.1. 状态空间 1.1.1. 状态 1.1.2. 观测 1.2. 动作空间 1.3. 策略 2. 马尔可夫...
Windows环境下使用CMake+MinGW-w64编译模型加载库assimp
本文介绍了在Windows环境下使用MinGW-w64编译模型加载库assimp的方法和坑。 1. 基本知识 1.1. MinGW-w64 1.2. assimp 2. 部署方式 2.1. CMake 2.2. make 3. 参考文献 1. 基本知识 1.1. ...
天文学基础(坐标系统)
本文介绍了天文学中基本的座标系统。 1. 背景 1.1. 国际地球自转和参考框架服务 1.2. 国际天文学联合会 2. 坐标系 2.1. 参考系统与参考框架 2.2. 坐标系的分类 2.3. 国际天球参考系统和参考框架(ICRS/ICRF) ...
CDDIS网站下GNSS相关数据解析(卫星星历部分)
本文介绍了CDDIS网站下 GNSS 相关的数据产品下载、命名方式解读、文件格式说明和文件下载地址。 1. 数据(data目录) 2. 广播星历(Broadcast ephemeris data) 2.1. Daily GPS Broadcast Ephemeris Files 2.2. Hourly GPS Broadcast Ephe...
深度学习文章阅读(Image Segmentation)
本文介绍了模糊惩罚稀疏编码在扩散张量磁共振图像分割中的应用。Fuzziness Penalized Sparse Coding for Diffusion Tensor Magnetic Resonance Image Segmentation 1. 参数定义 2. 模糊惩罚稀疏编码 3. 优化 3.1. 参数更新 ...
计算机视觉(YOLO V5)
本文介绍了计算机视觉中单阶段目标检测问题的一个最新实现,即 YOLO V5。 1. 网络结构 1.1. parameters 1.2. backnone 1.2.1. Focus 1.2.2. Conv 1.2.3. BottleneckCSP ...