AI

大语言模型(推荐)

转载小红书:AI产品赵哥

背景🔖


2023 年 3 月 15 日,ChatGPT3.5 横空出世,它能写诗、能编程、能写论文、能模拟人生…… 它展现出的、近乎神般的语言能力,让无数人第一次真切地感受到了人工智能的惊人力量。

紧接着,Claude、Gemini、Llama 等一系列强大的 AI 接踵而至,一个百模大战的全新时代轰然开启。

这些神奇大脑的背后,那个被称为大语言模型(Large Language Model,LLM)的东西,到底是什么?

它不是一个简单的程序,也不是一个巨大的数据库。它是一个被数据喂养出来的、复杂的、概率性的数字生命体。

今天,这篇笔记,我将从这个 “生命体” 出生前的准备工作,到婴幼儿时期的启蒙教育,再到上大学后的专业深造,最后到步入社会后的持续学习,完整地走一遍它的一生。

这篇笔记将串联起我们之前聊过的很多知识点(泛化、拟合、模型微调、幻觉、强化学习、神经网络……),为你构建一个关于 LLM 的、坚不可摧的认知框架。耐心看完,你将对 AI 领域有更深刻的见解。

  

一、在出生之前 —— 为 AI 婴儿准备精神食粮🔖


一个 LLM 的诞生,始于一场人类历史上最大规模的数据盛宴的准备工作。你不能指望一个婴儿凭空学会说话,你必须给它提供海量的、高质量的语料来学习。

这个阶段,被称为数据准备(Data Preparation)。

  

🔹1.收集语料 —— 建造一个数字图书馆

  • 目标:尽可能多地收集能代表人类知识和语言模式的文本数据。
  • 数据来源:
    • 互联网的汪洋:像 Common Crawl 这样的项目,会定期爬取并存档整个公开的互联网。这包括了新闻、博客、论坛、维基百科、科学论文、小说、代码…… 你能想到的一切,几乎都在里面。这是 LLM 最主要的主食。
    • 高质量的书籍:为了学习更规范、更严谨、更有深度的语言,研究人员会引入大量的数字化图书,比如 Google Books 语料库。
    • 专业的对话数据:为了让模型学会聊天,还需要引入大量的对话、问答数据。
    • 代码数据:像 GitHub 这样的代码托管平台,是模型学习编程能力的宝库。
  • 规模:训练 GPT-3 这样级别的模型,所用到的文本数据,如果打印成 A4 纸,可以从地球铺到月亮!其规模之大,远超任何个人一生所能阅读的极限。

  

🔹2. 数据清洗 —— 剔除有毒的、无用的精神食粮

  • 目标:原始的互联网数据是脏的,充满了垃圾信息、重复内容、格式错误、有害言论和个人隐私。直接喂给模型,只会教坏它。
  • 清洗过程:
    • 去重:删除大量重复的句子和段落。
    • 质量过滤:利用一些启发式规则或辅助模型,过滤掉低质量的、机器生成的、或无意义的文本(比如一堆乱码)。
    • 去除有害内容:识别并删除涉及暴力、歧视、色情等不当言论。
    • 隐私处理:去除或脱敏个人身份信息,如姓名、电话号码、身份证号等。

这是最耗时、最脏最累,但也至关重要的一步。数据的质量,直接决定了模型品行的上限。

  

🔹3. 文本切分 —— 把文章拆成 AI 能懂的积木块

  • 目标:计算机不认识字或词,它们只认识数字。Tokenization 就是把我们人类的语言,转化成 AI 能够处理的、离散的 Token(令牌)序列的过程。
  • 什么是 Token:你可以把它理解为 AI 语言世界里的基本单位。它不完全等于一个单词。
    • 对于英文,loving 可能会被切成 lov 和 ing 两个 Tokens。
    • 对于中文,一个 Token 可能是一个汉字,也可能是一个常用的词语(比如人工智能可能是一个 Token)。
  • 工作原理:通常使用像 BPE(Byte Pair Encoding)这样的算法,它能智能地在按单个字符切和按整个词切之间找到一个平衡,构建一个最高效的词汇表(Vocabulary)。
  • 结果:一篇长长的文章,最终会变成一串由几千、几万个数字 ID 组成的序列。比如 [50256, 198, 464, 123, …](即词向量)。这,才是 LLM 真正看到的世界。

  

二、婴幼儿时期 —— 预训练(Pre-training),在完形填空中领悟世界🔖


数据准备好了,现在,我们的 AI 婴儿即将开始它一生中最重要、最漫长、也最烧钱的启蒙教育阶段 —— 预训练(Pre-training)。

预训练:是在海量的、无标签的文本数据上,通过一种自监督(Self-supervised)的方式,让模型学习语言的通用模式、语法结构和世界知识的过程。其目标,不是为了完成任何具体任务,而是为了构建一个知识渊博、语言流畅的基础模型(Foundation Model)。

自监督是这里的关键词!我们没有老师来给每一句话打标签,那模型怎么学习呢?答案是:让数据自己成为自己的老师!

最核心的训练任务,就是一种我们从小玩到大的游戏 —— 完形填空。

训练任务:掩码语言模型(Masked Language Modeling, MLM)/ 下一个词预测(Next Token Prediction)

  • 玩法:
    • a. 从我们的数据文库里,随机抽一句话,比如:今天天气真不错,我们一起去____吧。
    • b. 把最后一个词 “公园” 挖掉(掩码 Mask)。
    • c. 把这句话的前半部分,输入给模型。
    • d. 要求模型预测,那个被挖掉的空里,最有可能填什么词?
  • 学习过程:
    • 第一次,模型的权重是随机的,它可能会瞎猜一个 “吃饭”。
    • 我们拿出标准答案 ——“公园”,告诉模型:“你猜错了!正确答案是‘公园’。”
    • 模型会计算出自己的预测和答案之间的损失(Loss)。
    • 然后,通过我们熟悉的反向传播和梯度下降,微调它内部几千亿个权重参数,让自己下一次在看到 “今天天气真不错,我们一起去…” 时,预测出 “公园” 的概率,比预测出 “吃饭” 的概率稍微高那么一点点。(对具体过程感兴趣的同学,参考 10.9 发的《神经网络》的笔记)
  • 重复亿万次:这个看似简单的完形填空游戏,会在整个互联网 + 图书馆的数据上,重复进行数百万亿次!
  • 奇迹的发生:为了能够持续地、以高概率猜对下一个词,模型被迫要去学习和理解极其深刻的东西:
    • 语法规则:“今天天气……” 后面,大概率会接一个名词或动词短语。
    • 语义关联:“天气不错” 和 “公园” 这两个概念,在语义上是强相关的。
    • 事实知识:“法国的首都是___。” 为了填对 “巴黎”,它必须记住这个事实。
    • 逻辑推理:“三角形有三个角,四边形有___个角。” 它必须学会简单的类比推理。

通过完成这个单一的、暴力的完形填空任务,LLM 在它的神经网络内部,不知不觉地构建起了一张关于我们人类语言、知识、逻辑的、庞大而复杂的世界地图。

这个过程,成本极其昂贵!训练一个像 GPT-4 这样的顶级模型,可能需要:

  • 数万块最顶级的 NVIDIA H100 GPU。
  • 连续运行数个月。
  • 耗费数亿甚至数十亿美元的电力和计算成本。

预训练完成后,我们就得到了一个毛坯版的、无所不知但有点野性难驯的基础模型。它就像一个读完了全世界的书、但还没学会如何与人得体交流的天才少年。

  

三、上大学深造 —— 指令微调(Instruction Fine-tuning),教 AI 听懂人话🔖


预训练出的基础模型,虽然知识渊博,但它只会续写,不会听话。你问它 “法国首都是哪里?”,它可能会续写成 “法国首都是哪里?英国首都是哪里?……”。

为了让它从一个文本补全机,变成一个乐于助人、听从指令的对话助手,我们需要对它进行大学教育 —— 指令微调(Instruction Fine-tuning),有时也叫监督微调。

⚠️ 划重点

指令微调:是在一个规模小得多、但质量极高的、由指令 – 回答对组成的数据集上,对预训练好的模型进行进一步的训练。其目标,是教会模型理解并遵循人类的指令,以一种有用、诚实、无害的方式进行回答。

  • 教材是什么:这是一本精心编写的 QA 习题集。每一条数据,都包含:
    • 一个指令:比如,请解释一下什么是黑洞?
    • 一个高质量的回答:由人类专家编写的、关于黑洞的、清晰易懂的解释。
  • 数据来源:这些高质量的 QA 数据,一部分来自公开数据集,但更多的是由 OpenAI、Google 等公司花重金,雇佣大量高学历的标注员,精心编写和审核的。这是他们的核心护城河之一。
  • 学习过程:这个过程,就是一个标准的监督学习。模型接收指令,生成一个自己的回答。然后,将自己的回答与标准答案进行比较,计算损失,再通过反向传播来更新权重。
  • 效果:经过这个阶段的特训,模型会发生脱胎换骨的变化。它学会了:
    • 理解意图:知道 “解释一下” 和 “总结一下” 是不同的任务。
    • 遵循格式:你让它写一首诗,它就不会写成散文
    • 对话风格:它的回答会变得更像一个助手,而不是一个冷冰冰的机器。

  

四、步入社会 —— 对齐(Alignment),为 AI 装上道德罗盘🔖


经过指令微调,我们的 AI 已经是个高材生了,既博学又有礼貌。但还有一个至关重要的问题:如何确保它的行为,符合我们人类的价值观?

它可能会无意中输出一些有偏见的、有害的、或者不安全的内容。为了解决这个问题,我们需要对它进行思想品德教育,这个过程,在 AI 领域被称为对齐(Alignment)。

最主流的对齐技术,就是大名鼎鼎的 —— 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)。

⚠️ 划重点

RLHF:是利用人类的偏好作为奖励信号,通过强化学习,来进一步微调模型,使其输出更符合人类价值观的过程。它的目标,是为 AI 装上一个道德罗盘。

这个过程,分为三步:

🔹1.第一步:训练一个品味导师 —— 奖励模型(Reward Model)

  • 我们先让微调好的模型,对同一个问题,生成多个不同的回答(比如 4-5 个)。
  • 然后,让人类标注员来给这些回答排序,从最好到最差。
  • 我们用这些人类偏好排序数据,来训练一个新的、独立的模型,这个模型就叫奖励模型。它的工作,就是模仿人类的品味,给任何一个 AI 生成的回答打一个分数,分数越高,代表人类可能越喜欢。

  

🔹2.第二步:在反馈中学习 —— 强化学习微调

  • 现在,我们把奖励模型拿过来(类似于品鉴师),指导我们的 LLM 进行强化学习。
  • 过程:
    • i. LLM(此时是演员 Agent)接收一个随机的 Prompt,生成一个回答。
    • ii. 这个回答,不和标准答案比,而是被送给奖励模型(环境 / 评委)去打分。
    • iii. LLM 根据这个分数(奖励信号),来更新自己的策略(通过 PPO 等强化学习算法)。
  • 目标:LLM 会努力调整自己的说话方式,以最大化地从奖励模型那里获得高分。

  

🔹3.结果:经过 RLHF 的调教,模型会变得更加对齐。它会学会:

  • 拒绝不当问题:比如,如何制造危险品。
  • 避免偏见言论:在涉及种族、性别等敏感话题时,保持中立和客观。
  • 更有帮助性:优先生成那些真正能解决用户问题的、安全的、诚实的回答。

预训练 + 指令微调 + RLHF,这三步曲,共同构成了当前训练一个顶尖大语言模型(如 ChatGPT)的标准配方。

  

五、展望未来:从语言模型到世界公民🔖


我们今天完整地见证了一个大语言模型的诞生。

  • 它始于海量的数据准备,这是它的 “原生家庭” 和 “成长环境”。
  • 它在预训练的完形填空中,构建了关于世界的 “底层认知”。
  • 它在指令微调的大学教育中,学会了如何与人 “有效沟通”。
  • 它在 RLHF 的社会化训练中,习得了人类的价值观和行为准则。

但故事,还远未结束。

  • 多模态的融合:未来的 LLM,将不再仅仅是语言模型,而是能够同时处理图像、声音、视频的大型多模态模型(LMMs),拥有更丰富的感官。
  • 与世界的互动:通过与具身智能的结合,LLM 将获得身体,能够将它的智慧,应用到改造物理世界的行动中去。
  • 走向 AGI 之路:LLM 被许多人认为是通往通用人工智能(AGI)最有希望的路径之一。当它的推理、常识、乃至世界模型的能力,突破下一个涌现的临界点时,我们或许将见证一个真正的新智能的诞生。(关于 AGI、世界模型、涌现等知识点,请移步历史笔记)

  

六、总结一下吧🔖


今天,我们探索了深入大语言模型的成长之路:

  • 第一阶段:数据准备
    • 目标:收集、清洗、切分海量的文本数据,为模型准备精神食粮。
    • 关键词:数据清洗、Tokenization。

  

  • 第二阶段:预训练
    • 目标:在无标签数据上,通过完形填空式的自监督学习,构建一个知识渊博的基础模型。
    • 关键词:自监督、下一个词预测。

  

  • 第三阶段:指令微调
    • 目标:在高质量的 “指令 – 回答” 数据上,通过监督学习,教会模型听懂人话。◦ 关键词:有监督微调、指令遵循。

  

  • 第四阶段:对齐
    • 目标:通过基于人类反馈的强化学习(RLHF),为模型注入人类的价值观,使其变得更有用、无害、诚实。◦ 关键词:RLHF、奖励模型。

掌握了这个完整的四阶段框架,你就拥有了一张理解所有大语言模型技术细节的总地图。无论是新闻里提到的新技术,还是我们之前聊过的各种概念,你都能准确地将它们定位到这张地图的相应位置上。

  

📋 历史笔记

  • AI:模型蒸馏、RAG、模型微调、Agent、大模型幻觉、注意力机制、思维链、泛化与过拟合、AGI、多模态、强化学习、涌现、神经网络
  • 自动驾驶:ADAS、高精地图、端到端自动驾驶、仿真平台、世界模型、具身智能、分级标准

💡 未来笔记

  • AI:AIGC、Prompt、训练 / 预训练 / 推理、CNN;;RNN、LangChain、知识图谱、数据增强……
  • 自动驾驶:VLM/VLA、自动驾驶的流派之争、自动驾驶工具链、数据闭环、BEV;V2X、ODD、占用网络(OCC)与自由空间、场景、OpenSCENARIO、场景空间与覆盖度、Corner Case(长尾场景)、多传感器融合(前融合 / 后融合)WEWA、