强化学习（策略梯度法）

本文介绍了强化学习的策略梯度法（Policy Gradient）。 1. 回顾基于价值的强化学习 2. 策略梯度 2.1. 策略函数 2.2. 策略函数的分布形式 2.3. 策略梯度 2.3.1. 回顾价值梯度 2.3.2. 策略梯度 ...

2023/11/27 Academic, Knowledge

如何清理 .git 文件夹来减小 github 仓库大小

本文介绍了如何清理github本地缓存文件夹来减小 github 仓库大小。 1. github 1.1. git 命令 1.2. github 桌面 1.3. .git 文件夹 2. .git 文件夹清理 2.1. Linux 环境命令行清理 2.2. 跨平台 BFG 工具清...

2023/09/18 Knowledge

在 Windows 中部署和使用 WSL 并进行跨平台 C/C++ 开发

本文介绍了如何在 Windows 操作系统中适用微软官方提供的 WSL（Windows Subsystem for Linux）工具部署 Linux 子系统。 1. 什么是 WSL 1.1. WSL 1 和 WSL 2 1.2. 例外情况（使用 WSL 1 而不是 WSL 2） 2. 安装 WSL ...

2023/09/07 Knowledge

航天中的四元数以及姿态运动学

本文介绍了航天器姿态描述、姿态变换和姿态运动学中涉及的四元数表示法。 1. 基础 1.1. 矢量的正交分解 1.2. 叉乘矩阵 1.3. 坐标系定义 2. 轴角旋转 3. 姿态四元数 3.1. 四元数定义 3.2. 四元数表示旋转 3.3. 姿态四元数 ...

2023/06/02 Knowledge

使用CMake开发C++工程

本文介绍了使用 CMake（CPack）和 NSIS 构建并打包 C/C++ 工程项目的基本流程和方法，核心在于 CMakeLists.txt 文件的编写。 1. 引言 1.1. 传统编译 1.2. Make 编译 1.3. CMake 编译 2. 安装 CMake 3. 编写 CMakeLists.tx...

2023/05/15 Tutorial, Coding

强化学习（值函数近似）

本文首先介绍了值函数近似（Value Approximation），然后分别结合 SARSA 和 Q-Learning 给出了两种 Q 函数近似的方法。通过分析线性函数作为估计函数的局限性，自然引入神经网络来进行非线性函数近似，引出了基于深度学习的 Q 函数估计网络：Deep Q-Network（DQN）。 1. 引言 2. 状态价值函数近似 2.1...

2023/01/02 Academic, Knowledge

强化学习（时序差分法）

本文首先引入了随机近似理论，然后通过比较动态规划和蒙特卡洛，引出结合二者优势的时序差分法。通过分析可知，时序差分法是随机近似理论的一个特例。随后详细介绍了同轨策略下的时序差分控制（SARSA）、离轨策略下的时序差分控制（Q-Learning）和期望SARSA。最后介绍了基于价值的深度强化学习方法：Deep Q-Network（DQN）。 1. 引言 2. 随机近似理论 ...

2022/12/18 Academic, Knowledge