欢迎来到蚂蚁无双的个人空间 -- AI 与生活/ Posts/ 算法部分/ 强化学习 PPO/ 强化学习 PPO 2024-06-03·更新于: 2024-12-06·205 字·1 分钟 算法部分 作者 蚂蚁无双 AI 与生活 目录 强化学习 目录 强化学习 强化学习 # 首先我们来认识一下强化学习。 一般来说,我们把机器学习算法分为监督学习(Supervised)和非监督学习(Unsupervised),上图我们引入了另一种机器学习方法 – 强化学习。 不过多消耗在三者的概念分辨上,意义不大。但这三类机器学习方法与人类社会有某种似曾相识的感觉。 监督学习 – 尽可能的去拟合、遵循现有规则。从线性回归 非监督学习 – 抱团,物以类聚,人以群分。 强化学习 – 赏罚,“巴甫洛夫的条件反射实验”