LLM微调

大模型微调的三个节点：

节点 1 ChatGPT：由于 ChatGPT 惊人的效果，让大家意识到 AGI 的可能性，并重视起了大模型+开放指令微调+强化学习这种三阶段范式
节点 2 LLaMA：LLaMA 是 Meta 在今年 2 月份推出的基座模型，宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B)，而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外，该项目还开源了 7B、13B、30B 和 65B 版本。
节点 3 Stanford Alpaca：在 LLaMA 的基础上，用 Self-Instruct 去制造了 52K 的指令微调数据集，最后发现训练出来的模型确实是能听懂指令的，能看出 ChatGPT 的雏形

本质都是：底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)。

大模型训练微调框架

deepspeed(微软)

transformers(hugggingface)

丰富的生态，几乎开源的大模型都在 huggingface 都可以找到，开源的数据集利用它可以轻松加载。
底层支持 tensorflow 和 pytorch,重新封装一层，比较麻烦的训练和预测备封装成 Tranier 类，数据加载、处理、搭建模型、训练使用起来特别容易上手。

modelscope(魔塔)

Llama Factory

多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen（阿里通义）、Yi（零一万物）、Gemma、Baichuan（百川）、ChatGLM（智谱）、Phi 等等。
集成方法：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练和 ORPO 训练。
多种精度：32 比特全参数微调、16 比特冻结微调、16 比特 LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8 的 2/4/8 比特 QLoRA 微调。
先进算法：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 Agent 微调。
实用技巧：FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
实验监控：LlamaBoard、TensorBoard、Wandb、MLflow 等等。
极速推理：基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。

数据集

Alpaca-CoT

对大部份中英文的开源 IFT 数据集进行了整理和汇总，包括有 Guanaco、belle、firefly、COIG，加上项目自己开源的 CoT 数据集。假如不想自己去疏离数据集的话，就看这个它们整理好的就行了。

Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据，并做了中文的翻译。由于 GPT4 比 GPT3.5 强大很多的，因此质量自然会更高。

belle_data

https://github.com/LianjiaTech/BELLE/tree/main/data/10M

规模很大、类型也较多的数据集

School Math：包含约 25 万条中文数学题数据，包含解题过程。
Multiturn Chat：包含约 80 万条用户与助手的多轮对话。
Generated Chat：包含约 40 万条给定角色的多轮对话。
train_2M_CN：包含约 200 万条与 Alpaca 类似生成的多样化指令任务数据。

这些数据都是由 ChatGPT 生成，部分质量是不过关的，需要自己好好筛选一下。

COIG

https://huggingface.co/datasets/BAAI/COIG

规模很大，类型很全的数据集

翻译指令数据集：基于开源数据集精选得到，并通过 DeepL 高质量翻译、并进行人工验证+人工修正考试指令数据集：中国高考、中考、公务员考试得到，可用作思维链 (CoT) 语料库价值对齐数据集：「中文世界的价值观念不同于英语世界的价值观」，作者构建了与普世华人价值观 match 的数据集，也是通过 self-instruct 生成的反事实校正数据集：构建了反事实校正多轮聊天数据集（CCMC）。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天，以及他们所参考的相应知识。教师根据基本事实知识生成响应，并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处代码指令数据集：Leetcode 数据集，包含有代码到文本和文本到代码总体来说，这份数据集质量非常高，需要我们好好根据任务进行挑选。

垂直领域大模型微调实践经验

模型架构

不要指望一个单个垂直领域的LLM就可以满足所有需求，合理的做法可能是实时更新的知识库+微调的垂直领域LLM
超大参数模型(至少百亿) 即使被量化其能力依然能保持的较好。

数据

在LLM时代，需要牢记数据质量>数量这个真理，超大规模的SFT数据会让下游任务LLM减弱或者失去ICL、CoT等能力。
为防止灾难性遗忘，在算力充足情况下推荐 使用垂直领域数据和通用语料数据进行训练，这样模型既可以有垂直领域上的训练学习，也可以保持通用能力（如指令遵循）。
大量数据进行二次预训练需要配比各类型其他数据：
语言模型训练完成后，参数各个区域负责部分已经确定，如果大量增加某类在预训练时没有的知识，会造成参数的大幅度变化，造成整个语言模型能力损失;
进行大规模数据的二次预训练，需要添加5-10倍原始预训练中的数据，并打混后一起训练。
训练数据要严格控制噪音
预训练数据中如果出现少量连续的噪音数据，比如连续重复单词、非单词序列等，都可能造成特定维度的调整，从而使得模型整体PPL大幅度波动;
有监督微调指令中如果有大量与原有大语言模型不匹配的指令片段，也可能造成模型调整特定维度，从而使得模型整体性能大幅度下降。
大模型混合多种能力数据微调时呈现：高资源冲突，低资源增益，所以混合不同数据进行微调需要一定的工程技巧，翻译总结一下就是： 低资源但高质量，并结合不同领域需求进行配比
对于静态数据集，在多轮训练中多次迭代可能效果不佳。会导致过拟合，使训练结果恶化。
对于静态数据集，想要让 LLM 强化成「全能选手」，在所有基线任务中都表现优异是不可能完成的。想要解决这个问题需要多样化的数据源，或者使用 LoRA 以外的技术。
多样性：例如在 Self-Instruct 论文中，会使用 ROUGE 指标，过滤掉生成的指令与已有指令重合的指令。
高质量：使用 ChatGPT 生成数据，自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而，ChatGPT（指 GPT3.5）自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱，其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复，计算困惑度 Perplexity。Perplexity 低的通常是不流畅的，可以将低于一定阈值的去掉。
启发式：例如过滤掉问题是中文但回答是英文的，过滤掉生成的指令包含需要外部知识库的情况。

微调

全流程的LLM训练包括：预训练、监督微调、奖励模型、强化学习，多数情况下监督微调即可满足自身需求。
对于垂类模型，更应该关注PT的过程，而不是采集千万百万的SFT数据做训练，一般建议是 大规模预训练+小规模监督微调=超强的LLM模型
指令微调阶段不能够进行过多轮次训练 ：

(1) 针对少量数据进行多个epoch的训练，可能会造成语言关键区域变化，从而导致整个模型失效;

(2) 为了特定任务提升的指令微调，为了保证模型语言能力关键区不被大幅度调整，需要添加通用指令微调数据或者预训练数据。 4. 通常来说，使用lora的效果不如full-tuning （如LoRA results in 4-6% lower performance compared to full fine-tuning ） 5. 7B系列模型请优先采用全参数微调方式（条件不满足就P-tuning，动的参数越多效果通常会更好）， 13B及以上参数模型可使用LoRA，QLoRA等方法 。 6. 如果要结合 LoRA，确保它在所有层上应用 ，而不仅仅是 Key 和 Value 矩阵中，这样才能最大限度地提升模型的性能。 7. 虽然 LLM 训练（或者说在 GPU 上训练出的所有模型）有着不可避免的随机性，但多轮训练的结果仍非常一致。 8. 如果受 GPU 内存的限制，QLoRA 提供了一种高性价比的折衷方案。它以运行时间增长 39% 的代价，节省了 33% 的内存。 9. 在微调 LLM 时，优化器的选择不是影响结果的主要因素 。无论是 AdamW、具有调度器 scheduler 的 SGD ，还是具有 scheduler 的 AdamW，对结果的影响都微乎其微。 10. 虽然 Adam 经常被认为是需要大量内存的优化器，因为它为每个模型参数引入了两个新参数，但这并不会显著影响 LLM 的峰值内存需求。这是因为大部分内存将被分配用于大型矩阵的乘法，而不是用来保留额外的参数。 11. 调整 LoRA rank 和选择合适的 α 值至关重要，可以把 α 值设置成 rank 值的两倍。从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出，Full-Tuning 效果应该是最好的，但 Full-Tuning 需要机器资源多，训练时间长。其次是 P-TuningV2/Lora/Freezing 的话，貌似是 P-TuningV2 效果最佳，具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而，这些比较并不严谨，例如每个方案都有自己的超参，是否每个方法都做了超参搜索。

强化学习部分重要吗

非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样，但仔细看会发现胡言乱语的情况很严重，也即幻觉问题。也有人会另辟蹊径，例如 COIG 中的 CCMC 数据集，通过将这些数据集加入到 IFT 训练中，让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼，目的是让模型在生成更加谨慎。然而，这些都是折中的办法。个人认为减少幻觉问题这一步，还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。

垂域 LLM 训练经验之谈

https://mp.weixin.qq.com/s/giJ7vSs1PIv98_EuJpsBXQ

全参微调学东西最快
lora 要学习垂域知识，得多训几个 epoch 才行，或者对数据集进行过采样
llama pro 学东西也快，缺点就是会增加参数量
如果不是特别垂直的场景，优先 RAG 吧
训垂域模型，要我选，我选 llama pro

Reference

#LLM

上次更新: 2025/04/02, 12:03:38

← DeepSpeed-Megatron MoE并行训练大模型应用优化路径→