跳过正文
  1. Posts/
  2. 使用指南/

大模型自学 -- 论读经典的重要性

··1450 字·3 分钟
致敬MP
蚂蚁无双
作者
蚂蚁无双
AI 与生活
目录

Building Models That Learn From Themselves, Andrew Ng, Andrew’ Letters @ deeplearning.ai

Data matters
#

Llama 3 的 pretraining 的数据量已经达到惊人的 15T tokens (1 token = 0.75 word)。从各种报道来看,现有的数据量和参数量都未能达到 Transformer 架构下的 LLM 所能达到的性能阈值。也就是说,更多的高质量数据还能不断提高现有 LLM 的能力。

模型训练
#

Broadly, LLM training involves (i) pretraining (learning from unlabeled text data to predict the next word) followed by (ii) instruction fine-tuning (learning to follow instructions) and (iii) RLHF/DPO tuning to align the LLM’s output to human values.

LLM 训练三步走:

  1. pretraining,Llama 3 的 15T tokens 就用在这个阶段。
  2. 指令微调,训练 LLM 能够以某种特定的方式输出,比如现今主流的 Chat 模式。此训练步骤要求的数据,比第一步有数量级的减少。
  3. 对齐微调,与指令微调类似,不过目的不同。

数据从何而来
#

Pretraining 阶段的数据要求量巨大,因此大都来自有计算机以来电子化的文本数据。特别是近几十年互联网迅猛发展,为 LLM 提供了数据上的可能。

而指令和对齐微调,要求训练数据有一定结构(往往是问答形式),且质量至关重要。往往需要人工介入,或者直接使用人工生成。这种数据获取方式成本实在太高,稳定性不强,时间也是瓶颈,很难持续。

那么能不能通过 LLM 自己产生数据,再通过产生的数据进行学习呢?让大模型自学!

市面上已经有不少尝试,通过 ChatGPT 等成熟模型生成数据,微调 Llama 等开源模型,效果还不错。但是 ChatGPT 就是这些模型的天花板了。显然这类模型压根就没想过超越,更是达不到工业级的要求。

Indeed, training a model repeatedly on the output of an earlier version of itself can result in model collapse.

但是,如果想达到自学习目标,让一个模型直接生成数据来训练自己,是完全不可行,而且会让模型崩溃!

一种模型的上限,很大程度取决于训练数据的质量。大批量的平庸数据,反而帮倒忙。

阅读经典
#

其实人类学习也类似。起初,还是白纸阶段,需要大量的、简单的学习资料进行训练、学习。达到一定程度后,如果长期暴露在平庸的、不准确的二手信息下;更有甚者,成瘾似的沉溺于短视频中,不仅无法进步,还有 collapse 的风险!

人类大脑无疑有别于如今的大语言模型,对质的要求更高,因此村上春树在《且听风吟》中类似“不看活着的作家的书”的观点也不无道理。《挪威的森林》也有类似的情节。

经典,自有其道理。

另一种思路:agentic workflow
#

那么有没有一种可能,通过 LLMs 内部自学,从而达到他们当中“老师”的水平,甚至超越“老师”呢?

Inexpensive token generation and agentic workflows for large language models (LLMs) open up intriguing new possibilities for training LLMs on synthetic data.

文中提供了一条可能的路径:采用现在流行的 LLM 代理工作流的方式生成数据来训练 LLM 。

Efforts like these have precedents:

  • When using  reinforcement learning to play a game like chess, a model might learn a function that evaluates board positions. If we apply game tree search along with a low-accuracy evaluation function, the model can come up with more accurate evaluations. Then we can train that evaluation function to mimic these more accurate values.
  • In the alignment step, Anthropic’s constitutional AI method uses RLAIF (RL from AI Feedback) to judge the quality of LLM outputs, substituting feedback generated by an AI model for human feedback.

这种方法有以下优势:

  1. 在增强学习中,模型产生的数据的准确性更高。
  2. 很多商用大模型自带对齐的能力,也省去训练时数据对齐方面的考量。

商业最终还得回归到 ROI。

generating 1 trillion tokens using GPT-4-turbo ($30 per million output tokens), Claude 3 Opus ($75), Gemini 1.5 Pro ($21), and Llama-3-70B on Groq ($0.79) would cost, respectively, $30M, $75M, $21M and $790K.

抛开 Llama-3-70B 不谈,因为可以自己部署实现更低的成本,但是效果可能比不上商用模型。使用主流的几个商业模型 API,1T tokens 的成本在 3000 万美金左右。

而且如果加上 agentic workflow (需要通过多次交互),生成更好的 tokens 所需消耗的 tokens 更多,意味着这个成本还会更高。文中没有给出 agentic workflow 会额外增加多少消耗,按本人的经验,可能会是生成 tokens 的 2~3 倍。

But budgets for training cutting-edge LLMs easily surpass $100M, so spending a few million dollars more for data to boost performance is quite feasible.

除了 pretraining 需要 T 数量级的 tokens 来进行训练外,后两个微调步骤所需 tokens 会少很多。当然,数据肯定是多多益善。

另外,如今要训练一个前沿的(cutting-edge)LLM 动则 1 亿美金起步的成本而言,花个几百万在生成数据上也不为过。(感叹财大气粗啊!)