大语言模型(推荐)

转载小红书：AI产品赵哥

背景🔖

2023 年 3 月 15 日，ChatGPT3.5 横空出世，它能写诗、能编程、能写论文、能模拟人生…… 它展现出的、近乎神般的语言能力，让无数人第一次真切地感受到了人工智能的惊人力量。

紧接着，Claude、Gemini、Llama 等一系列强大的 AI 接踵而至，一个百模大战的全新时代轰然开启。

这些神奇大脑的背后，那个被称为大语言模型（Large Language Model，LLM）的东西，到底是什么？

它不是一个简单的程序，也不是一个巨大的数据库。它是一个被数据喂养出来的、复杂的、概率性的数字生命体。

今天，这篇笔记，我将从这个 “生命体” 出生前的准备工作，到婴幼儿时期的启蒙教育，再到上大学后的专业深造，最后到步入社会后的持续学习，完整地走一遍它的一生。

这篇笔记将串联起我们之前聊过的很多知识点（泛化、拟合、模型微调、幻觉、强化学习、神经网络……），为你构建一个关于 LLM 的、坚不可摧的认知框架。耐心看完，你将对 AI 领域有更深刻的见解。

一、在出生之前 —— 为 AI 婴儿准备精神食粮🔖

一个 LLM 的诞生，始于一场人类历史上最大规模的数据盛宴的准备工作。你不能指望一个婴儿凭空学会说话，你必须给它提供海量的、高质量的语料来学习。

这个阶段，被称为数据准备（Data Preparation）。

🔹1.收集语料 —— 建造一个数字图书馆

目标：尽可能多地收集能代表人类知识和语言模式的文本数据。
数据来源：
- 互联网的汪洋：像 Common Crawl 这样的项目，会定期爬取并存档整个公开的互联网。这包括了新闻、博客、论坛、维基百科、科学论文、小说、代码…… 你能想到的一切，几乎都在里面。这是 LLM 最主要的主食。
- 高质量的书籍：为了学习更规范、更严谨、更有深度的语言，研究人员会引入大量的数字化图书，比如 Google Books 语料库。
- 专业的对话数据：为了让模型学会聊天，还需要引入大量的对话、问答数据。
- 代码数据：像 GitHub 这样的代码托管平台，是模型学习编程能力的宝库。

规模：训练 GPT-3 这样级别的模型，所用到的文本数据，如果打印成 A4 纸，可以从地球铺到月亮！其规模之大，远超任何个人一生所能阅读的极限。

🔹2. 数据清洗 —— 剔除有毒的、无用的精神食粮

目标：原始的互联网数据是脏的，充满了垃圾信息、重复内容、格式错误、有害言论和个人隐私。直接喂给模型，只会教坏它。
清洗过程：
- 去重：删除大量重复的句子和段落。
- 质量过滤：利用一些启发式规则或辅助模型，过滤掉低质量的、机器生成的、或无意义的文本（比如一堆乱码）。
- 去除有害内容：识别并删除涉及暴力、歧视、色情等不当言论。
- 隐私处理：去除或脱敏个人身份信息，如姓名、电话号码、身份证号等。

这是最耗时、最脏最累，但也至关重要的一步。数据的质量，直接决定了模型品行的上限。

🔹3. 文本切分 —— 把文章拆成 AI 能懂的积木块

目标：计算机不认识字或词，它们只认识数字。Tokenization 就是把我们人类的语言，转化成 AI 能够处理的、离散的 Token（令牌）序列的过程。
什么是 Token：你可以把它理解为 AI 语言世界里的基本单位。它不完全等于一个单词。
- 对于英文，loving 可能会被切成 lov 和 ing 两个 Tokens。
- 对于中文，一个 Token 可能是一个汉字，也可能是一个常用的词语（比如人工智能可能是一个 Token）。
工作原理：通常使用像 BPE（Byte Pair Encoding）这样的算法，它能智能地在按单个字符切和按整个词切之间找到一个平衡，构建一个最高效的词汇表（Vocabulary）。
结果：一篇长长的文章，最终会变成一串由几千、几万个数字 ID 组成的序列。比如 [50256, 198, 464, 123, …]（即词向量）。这，才是 LLM 真正看到的世界。

二、婴幼儿时期 —— 预训练（Pre-training），在完形填空中领悟世界🔖

数据准备好了，现在，我们的 AI 婴儿即将开始它一生中最重要、最漫长、也最烧钱的启蒙教育阶段 —— 预训练（Pre-training）。

预训练：是在海量的、无标签的文本数据上，通过一种自监督（Self-supervised）的方式，让模型学习语言的通用模式、语法结构和世界知识的过程。其目标，不是为了完成任何具体任务，而是为了构建一个知识渊博、语言流畅的基础模型（Foundation Model）。

自监督是这里的关键词！我们没有老师来给每一句话打标签，那模型怎么学习呢？答案是：让数据自己成为自己的老师！

最核心的训练任务，就是一种我们从小玩到大的游戏 —— 完形填空。

训练任务：掩码语言模型（Masked Language Modeling, MLM）/ 下一个词预测（Next Token Prediction）

玩法：
- a. 从我们的数据文库里，随机抽一句话，比如：今天天气真不错，我们一起去____吧。
- b. 把最后一个词 “公园” 挖掉（掩码 Mask）。
- c. 把这句话的前半部分，输入给模型。
- d. 要求模型预测，那个被挖掉的空里，最有可能填什么词？
学习过程：
- 第一次，模型的权重是随机的，它可能会瞎猜一个 “吃饭”。
- 我们拿出标准答案 ——“公园”，告诉模型：“你猜错了！正确答案是‘公园’。”
- 模型会计算出自己的预测和答案之间的损失（Loss）。
- 然后，通过我们熟悉的反向传播和梯度下降，微调它内部几千亿个权重参数，让自己下一次在看到 “今天天气真不错，我们一起去…” 时，预测出 “公园” 的概率，比预测出 “吃饭” 的概率稍微高那么一点点。（对具体过程感兴趣的同学，参考 10.9 发的《神经网络》的笔记）
重复亿万次：这个看似简单的完形填空游戏，会在整个互联网 + 图书馆的数据上，重复进行数百万亿次！
奇迹的发生：为了能够持续地、以高概率猜对下一个词，模型被迫要去学习和理解极其深刻的东西：
- 语法规则：“今天天气……” 后面，大概率会接一个名词或动词短语。
- 语义关联：“天气不错” 和 “公园” 这两个概念，在语义上是强相关的。
- 事实知识：“法国的首都是___。” 为了填对 “巴黎”，它必须记住这个事实。
- 逻辑推理：“三角形有三个角，四边形有___个角。” 它必须学会简单的类比推理。

通过完成这个单一的、暴力的完形填空任务，LLM 在它的神经网络内部，不知不觉地构建起了一张关于我们人类语言、知识、逻辑的、庞大而复杂的世界地图。

这个过程，成本极其昂贵！训练一个像 GPT-4 这样的顶级模型，可能需要：

数万块最顶级的 NVIDIA H100 GPU。
连续运行数个月。
耗费数亿甚至数十亿美元的电力和计算成本。

预训练完成后，我们就得到了一个毛坯版的、无所不知但有点野性难驯的基础模型。它就像一个读完了全世界的书、但还没学会如何与人得体交流的天才少年。

三、上大学深造 —— 指令微调（Instruction Fine-tuning），教 AI 听懂人话🔖

预训练出的基础模型，虽然知识渊博，但它只会续写，不会听话。你问它 “法国首都是哪里？”，它可能会续写成 “法国首都是哪里？英国首都是哪里？……”。

为了让它从一个文本补全机，变成一个乐于助人、听从指令的对话助手，我们需要对它进行大学教育 —— 指令微调（Instruction Fine-tuning），有时也叫监督微调。

⚠️ 划重点

指令微调：是在一个规模小得多、但质量极高的、由指令 – 回答对组成的数据集上，对预训练好的模型进行进一步的训练。其目标，是教会模型理解并遵循人类的指令，以一种有用、诚实、无害的方式进行回答。

教材是什么：这是一本精心编写的 QA 习题集。每一条数据，都包含：
- 一个指令：比如，请解释一下什么是黑洞？
- 一个高质量的回答：由人类专家编写的、关于黑洞的、清晰易懂的解释。
数据来源：这些高质量的 QA 数据，一部分来自公开数据集，但更多的是由 OpenAI、Google 等公司花重金，雇佣大量高学历的标注员，精心编写和审核的。这是他们的核心护城河之一。
学习过程：这个过程，就是一个标准的监督学习。模型接收指令，生成一个自己的回答。然后，将自己的回答与标准答案进行比较，计算损失，再通过反向传播来更新权重。
效果：经过这个阶段的特训，模型会发生脱胎换骨的变化。它学会了：
- 理解意图：知道 “解释一下” 和 “总结一下” 是不同的任务。
- 遵循格式：你让它写一首诗，它就不会写成散文
- 对话风格：它的回答会变得更像一个助手，而不是一个冷冰冰的机器。

四、步入社会 —— 对齐（Alignment），为 AI 装上道德罗盘🔖

经过指令微调，我们的 AI 已经是个高材生了，既博学又有礼貌。但还有一个至关重要的问题：如何确保它的行为，符合我们人类的价值观？

它可能会无意中输出一些有偏见的、有害的、或者不安全的内容。为了解决这个问题，我们需要对它进行思想品德教育，这个过程，在 AI 领域被称为对齐（Alignment）。

最主流的对齐技术，就是大名鼎鼎的 —— 基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）。

⚠️ 划重点

RLHF：是利用人类的偏好作为奖励信号，通过强化学习，来进一步微调模型，使其输出更符合人类价值观的过程。它的目标，是为 AI 装上一个道德罗盘。

这个过程，分为三步：

🔹1．第一步：训练一个品味导师 —— 奖励模型（Reward Model）

我们先让微调好的模型，对同一个问题，生成多个不同的回答（比如 4-5 个）。
然后，让人类标注员来给这些回答排序，从最好到最差。
我们用这些人类偏好排序数据，来训练一个新的、独立的模型，这个模型就叫奖励模型。它的工作，就是模仿人类的品味，给任何一个 AI 生成的回答打一个分数，分数越高，代表人类可能越喜欢。

🔹2．第二步：在反馈中学习 —— 强化学习微调

现在，我们把奖励模型拿过来（类似于品鉴师），指导我们的 LLM 进行强化学习。
过程：
- i. LLM（此时是演员 Agent）接收一个随机的 Prompt，生成一个回答。
- ii. 这个回答，不和标准答案比，而是被送给奖励模型（环境 / 评委）去打分。
- iii. LLM 根据这个分数（奖励信号），来更新自己的策略（通过 PPO 等强化学习算法）。

目标：LLM 会努力调整自己的说话方式，以最大化地从奖励模型那里获得高分。

🔹3．结果：经过 RLHF 的调教，模型会变得更加对齐。它会学会：

拒绝不当问题：比如，如何制造危险品。
避免偏见言论：在涉及种族、性别等敏感话题时，保持中立和客观。
更有帮助性：优先生成那些真正能解决用户问题的、安全的、诚实的回答。

预训练 + 指令微调 + RLHF，这三步曲，共同构成了当前训练一个顶尖大语言模型（如 ChatGPT）的标准配方。

五、展望未来：从语言模型到世界公民🔖

我们今天完整地见证了一个大语言模型的诞生。

它始于海量的数据准备，这是它的 “原生家庭” 和 “成长环境”。
它在预训练的完形填空中，构建了关于世界的 “底层认知”。

它在指令微调的大学教育中，学会了如何与人 “有效沟通”。
它在 RLHF 的社会化训练中，习得了人类的价值观和行为准则。

但故事，还远未结束。

多模态的融合：未来的 LLM，将不再仅仅是语言模型，而是能够同时处理图像、声音、视频的大型多模态模型（LMMs），拥有更丰富的感官。
与世界的互动：通过与具身智能的结合，LLM 将获得身体，能够将它的智慧，应用到改造物理世界的行动中去。
走向 AGI 之路：LLM 被许多人认为是通往通用人工智能（AGI）最有希望的路径之一。当它的推理、常识、乃至世界模型的能力，突破下一个涌现的临界点时，我们或许将见证一个真正的新智能的诞生。（关于 AGI、世界模型、涌现等知识点，请移步历史笔记）

六、总结一下吧🔖

今天，我们探索了深入大语言模型的成长之路：

第一阶段：数据准备
- 目标：收集、清洗、切分海量的文本数据，为模型准备精神食粮。
- 关键词：数据清洗、Tokenization。

第二阶段：预训练
- 目标：在无标签数据上，通过完形填空式的自监督学习，构建一个知识渊博的基础模型。
- 关键词：自监督、下一个词预测。

第三阶段：指令微调
- 目标：在高质量的 “指令 – 回答” 数据上，通过监督学习，教会模型听懂人话。◦ 关键词：有监督微调、指令遵循。

第四阶段：对齐
- 目标：通过基于人类反馈的强化学习（RLHF），为模型注入人类的价值观，使其变得更有用、无害、诚实。◦ 关键词：RLHF、奖励模型。

掌握了这个完整的四阶段框架，你就拥有了一张理解所有大语言模型技术细节的总地图。无论是新闻里提到的新技术，还是我们之前聊过的各种概念，你都能准确地将它们定位到这张地图的相应位置上。

📋 历史笔记

AI：模型蒸馏、RAG、模型微调、Agent、大模型幻觉、注意力机制、思维链、泛化与过拟合、AGI、多模态、强化学习、涌现、神经网络
自动驾驶：ADAS、高精地图、端到端自动驾驶、仿真平台、世界模型、具身智能、分级标准

💡 未来笔记

AI：AIGC、Prompt、训练 / 预训练 / 推理、CNN；；RNN、LangChain、知识图谱、数据增强……
自动驾驶：VLM/VLA、自动驾驶的流派之争、自动驾驶工具链、数据闭环、BEV；V2X、ODD、占用网络（OCC）与自由空间、场景、OpenSCENARIO、场景空间与覆盖度、Corner Case（长尾场景）、多传感器融合（前融合 / 后融合）WEWA、

92IT

Just love IT.

大语言模型(推荐)