跳过正文
  1. Posts/
  2. 算法部分/

强化学习 PPO

··205 字·1 分钟
算法部分
蚂蚁无双
作者
蚂蚁无双
AI 与生活
目录

强化学习
#

首先我们来认识一下强化学习

c6c7253a8e12cea48f0cf4faf93148f6_MD5

一般来说,我们把机器学习算法分为监督学习(Supervised)和非监督学习(Unsupervised),上图我们引入了另一种机器学习方法 – 强化学习。

不过多消耗在三者的概念分辨上,意义不大。但这三类机器学习方法与人类社会有某种似曾相识的感觉。

  • 监督学习 – 尽可能的去拟合、遵循现有规则。从线性回归

  • 非监督学习 – 抱团,物以类聚,人以群分。

  • 强化学习 – 赏罚,“巴甫洛夫的条件反射实验”