LLM微调
大模型微调的三个节点:
- 节点 1 ChatGPT:由于 ChatGPT 惊人的效果,让大家意识到 AGI 的可能性,并重视起了大模型+开放指令微调+强化学习这种三阶段范式
- 节点 2 LLaMA:LLaMA 是 Meta 在今年 2 月份推出的基座模型,宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B),而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外,该项目还开源了 7B、13B、30B 和 65B 版本。
- 节点 3 Stanford Alpaca:在 LLaMA 的基础上,用 Self-Instruct 去制造了 52K 的指令微调数据集,最后发现训练出来的模型确实是能听懂指令的,能看出 ChatGPT 的雏形
本质都是:底座模型(ChatGLM/LLaMA/BLOOM)+ 微调数据(主要是指令微调数据集) + 高效微调方案(Fulltuning/Lora/Freeze/Ptuning)。
大模型训练微调框架
deepspeed(微软)
transformers(hugggingface)
丰富的生态,几乎开源的大模型都在 huggingface 都可以找到,开源的数据集利用它可以轻松加载。
底层支持 tensorflow 和 pytorch,重新封装一层,比较麻烦的训练和预测备封装成 Tranier 类,数据加载、处理、搭建模型、训练使用起来特别容易上手。
modelscope(魔塔)
Llama Factory
多种模型:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen(阿里通义)、Yi(零一万物)、Gemma、Baichuan(百川)、ChatGLM(智谱)、Phi 等等。
集成方法:(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练和 ORPO 训练。
多种精度:32 比特全参数微调、16 比特冻结微调、16 比特 LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8 的 2/4/8 比特 QLoRA 微调。
先进算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ 和 Agent 微调。
实用技巧:FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
实验监控:LlamaBoard、TensorBoard、Wandb、MLflow 等等。
极速推理:基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。
数据集
Alpaca-CoT
对大部份中英文的开源 IFT 数据集进行了整理和汇总,包括有 Guanaco、belle、firefly、COIG,加上项目自己开源的 CoT 数据集。假如不想自己去疏离数据集的话,就看这个它们整理好的就行了。
Alpaca_GPT4
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
微软论文《INSTRUCTION TUNING WITH GPT-4》开源的数据集。亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译。由于 GPT4 比 GPT3.5 强大很多的,因此质量自然会更高。
belle_data
https://github.com/LianjiaTech/BELLE/tree/main/data/10M
规模很大、类型也较多的数据集
- School Math:包含约 25 万条中文数学题数据,包含解题过程。
- Multiturn Chat:包含约 80 万条用户与助手的多轮对话。
- Generated Chat:包含约 40 万条给定角色的多轮对话。
- train_2M_CN:包含约 200 万条与 Alpaca 类似生成的多样化指令任务数据。
这些数据都是由 ChatGPT 生成,部分质量是不过关的,需要自己好好筛选一下。
COIG
https://huggingface.co/datasets/BAAI/COIG
规模很大,类型很全的数据集
翻译指令数据集:基于开源数据集精选得到,并通过 DeepL 高质量翻译、并进行人工验证+人工修正 考试指令数据集:中国高考、中考、公务员考试得到,可用作思维链 (CoT) 语料库 价值对齐数据集:「中文世界的价值观念不同于英语世界的价值观」,作者构建了与普世华人价值观 match 的数据集,也是通过 self-instruct 生成的 反事实校正数据集:构建了反事实校正多轮聊天数据集(CCMC)。CCMC 数据集包括学生和老师之间的 5 轮角色扮演聊天,以及他们所参考的相应知识。教师根据基本事实知识生成响应,并在每一轮中纠正学生问题或陈述中的事实错误或不一致之处 代码指令数据集:Leetcode 数据集,包含有代码到文本和文本到代码 总体来说,这份数据集质量非常高,需要我们好好根据任务进行挑选。
垂直领域大模型微调实践经验
模型架构
- 不要指望一个单个垂直领域的LLM就可以满足所有需求,合理的做法可能是实时更新的知识库+微调的垂直领域LLM
- 超大参数模型(至少百亿) 即使被量化其能力依然能保持的较好。
数据
在LLM时代,需要牢记数据质量>数量这个真理,超大规模的SFT数据会让下游任务LLM减弱或者失去ICL、CoT等能力。
为防止灾难性遗忘,在算力充足情况下推荐 使用垂直领域数据和通用语料数据进行训练,这样模型既可以有垂直领域上的训练学习,也可以保持通用能力(如指令遵循) 。
大量数据进行二次预训练需要配比各类型其他数据:
语言模型训练完成后,参数各个区域负责部分已经确定,如果大量增加某类在预训练时没有的知识,会造成参数的大幅度变化,造成整个语言模型能力损失;
进行大规模数据的二次预训练,需要添加5-10倍原始预训练中的数据,并打混后一起训练。
训练数据要严格控制噪音
预训练数据中如果出现少量连续的噪音数据,比如连续重复单词、非单词序列等,都可能造成特定维度的调整,从而使得模型整体PPL大幅度波动;
有监督微调指令中如果有大量与原有大语言模型不匹配的指令片段,也可能造成模型调整特定维度,从而使得模型整体性能大幅度下降。
大模型混合多种能力数据微调时呈现:高资源冲突,低资源增益,所以混合不同数据进行微调需要一定的工程技巧,翻译总结一下就是: 低资源但高质量,并结合不同领域需求进行配比
对于静态数据集,在多轮训练中多次迭代可能效果不佳。会导致过拟合,使训练结果恶化。
对于静态数据集,想要让 LLM 强化成「全能选手」,在所有基线任务中都表现优异是不可能完成的。想要解决这个问题需要多样化的数据源,或者使用 LoRA 以外的技术。
多样性:例如在 Self-Instruct 论文中,会使用 ROUGE 指标,过滤掉生成的指令与已有指令重合的指令。
高质量:使用 ChatGPT 生成数据,自然训练出来的模型就是模仿 ChatGPT 的回复风格。然而,ChatGPT(指 GPT3.5)自身的缺点包括浓浓的机翻味道、文绉绉的、不够活泼可爱,其次中文生成不够流畅。一种思路是使用 PPL 等指标筛选出生成的指令和回复,计算困惑度 Perplexity。Perplexity 低的通常是不流畅的,可以将低于一定阈值的去掉。
启发式:例如过滤掉问题是中文但回答是英文的,过滤掉生成的指令包含需要外部知识库的情况。
微调
全流程的LLM训练包括:预训练、监督微调、奖励模型、强化学习,多数情况下监督微调即可满足自身需求。
对于垂类模型,更应该关注PT的过程,而不是采集千万百万的SFT数据做训练,一般建议是 大规模预训练+小规模监督微调=超强的LLM模型
指令微调阶段不能够进行过多轮次训练 :
(1) 针对少量数据进行多个epoch的训练,可能会造成语言关键区域变化,从而导致整个模型失效;
(2) 为了特定任务提升的指令微调,为了保证模型语言能力关键区不被大幅度调整,需要添加通用指令微调数据或者预训练数据。 4. 通常来说,使用lora的效果不如full-tuning (如LoRA results in 4-6% lower performance compared to full fine-tuning ) 5. 7B系列模型请优先采用全参数微调方式 (条件不满足就P-tuning,动的参数越多效果通常会更好), 13B及以上参数模型可使用LoRA,QLoRA等方法 。 6. 如果要结合 LoRA,确保它在所有层上应用 ,而不仅仅是 Key 和 Value 矩阵中,这样才能最大限度地提升模型的性能。 7. 虽然 LLM 训练(或者说在 GPU 上训练出的所有模型)有着不可避免的随机性,但多轮训练的结果仍非常一致。 8. 如果受 GPU 内存的限制,QLoRA 提供了一种高性价比的折衷方案。它以运行时间增长 39% 的代价,节省了 33% 的内存。 9. 在微调 LLM 时,优化器的选择不是影响结果的主要因素 。无论是 AdamW、具有调度器 scheduler 的 SGD ,还是具有 scheduler 的 AdamW,对结果的影响都微乎其微。 10. 虽然 Adam 经常被认为是需要大量内存的优化器,因为它为每个模型参数引入了两个新参数,但这并不会显著影响 LLM 的峰值内存需求。这是因为大部分内存将被分配用于大型矩阵的乘法,而不是用来保留额外的参数。 11. 调整 LoRA rank 和选择合适的 α 值至关重要, 可以把 α 值设置成 rank 值的两倍 。 从 BELLE 的技术报告《A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on Chinese Instruction Data for Instruction Following Large Language Model》中可以看出,Full-Tuning 效果应该是最好的,但 Full-Tuning 需要机器资源多,训练时间长。其次是 P-TuningV2/Lora/Freezing 的话,貌似是 P-TuningV2 效果最佳,具体可以看这个https://github.com/liucongg/ChatGLM-Finetuning。然而,这些比较并不严谨,例如每个方案都有自己的超参,是否每个方法都做了超参搜索。
强化学习部分重要吗
非常重要。现在发现 ChatGLM-6B 的回复虽然一看过去感觉像模像样,但仔细看会发现胡言乱语的情况很严重,也即幻觉问题。也有人会另辟蹊径,例如 COIG 中的 CCMC 数据集,通过将这些数据集加入到 IFT 训练中,让模型学习纠正不正确回复的能力。还有在 prompt 中加入“请不要生成虚假的、自我捏造的回复”等字眼,目的是让模型在生成更加谨慎。然而,这些都是折中的办法。个人认为减少幻觉问题这一步,还得靠强化学习。希望未来能看到更多构建强化学习数据和开源强化学习数据集、训练的方案。
垂域 LLM 训练经验之谈
https://mp.weixin.qq.com/s/giJ7vSs1PIv98_EuJpsBXQ
- 全参微调学东西最快
- lora 要学习垂域知识,得多训几个 epoch 才行,或者对数据集进行过采样
- llama pro 学东西也快,缺点就是会增加参数量
- 如果不是特别垂直的场景,优先 RAG 吧
- 训垂域模型,要我选,我选 llama pro