↓跳过正文

强化学习 PPO

2024-06-03·更新于: 2024-12-06·205 字·1 分钟

算法部分

作者

蚂蚁无双

AI 与生活

目录

目录

强化学习
#

首先我们来认识一下强化学习。

c6c7253a8e12cea48f0cf4faf93148f6_MD5

一般来说，我们把机器学习算法分为监督学习（Supervised）和非监督学习（Unsupervised），上图我们引入了另一种机器学习方法 – 强化学习。

不过多消耗在三者的概念分辨上，意义不大。但这三类机器学习方法与人类社会有某种似曾相识的感觉。

监督学习 – 尽可能的去拟合、遵循现有规则。从线性回归
非监督学习 – 抱团，物以类聚，人以群分。
强化学习 – 赏罚，“巴甫洛夫的条件反射实验”