大模型各阶段数据

以下是目前常见大模型在不同训练阶段的方案总结及对应阶段的样例数据：

数据来源：大规模无监督文本（如网页、书籍、代码、多语言语料），强调数据多样性和规模。
关键技术：分层采样、去重、多模态融合（图文/视频对）。
代表模型：
- GPT-3：使用45TB的Common Crawl、维基百科、书籍等数据，覆盖多领域文本和代码。
- T5：基于750GB的C4数据集（清洗后的Common Crawl英文文本），强调格式统一化处理。
- DeepSeek-V3：聚焦高质量代码和数学数据，总量达14.8万亿token。
- 智源BGE：采用3亿对中英文文本对（MTP数据集），支持语义向量模型训练。

格式：纯文本或JSONL，每行一个文档或段落。

《活着》，是中国著名作家余华所写的一部长篇小说...（来自维基百科）

{"text":"Flights from New York to Florida are available daily."}

数据来源：人工标注的指令-响应对、多轮对话数据，强调任务对齐和多样性。
关键技术：数据增强（如回译、同义词替换）、领域平衡。
代表模型：
- Alpaca：基于52K条指令数据，覆盖问答、推理等任务。
- 盘古大模型：支持单轮（CSV/JSONL）和多轮对话（带人设的JSONL格式），单条token长度限制4K或32K。
- T5：统一文本到文本格式，输入示例如translate English to German: That is good.。

单轮对话（JSONL）：

{"context":"如何制作蛋糕？","target":"首先准备面粉、鸡蛋和糖..."}

多轮对话（带人设）：

[{"system":"你是一个客服助手"},{"context":"我的订单未送达","target":"请提供订单号以便查询。"}]

数据来源：人工标注的偏好排序数据或对比对，需覆盖正负样本和对抗性提问。
关键技术：多维度评分（安全性、有用性、事实性）。
代表模型：
- Anthropic HH-RLHF：人工标注的对话优劣对比数据，用于对齐模型价值观。
- GPT-4：基于数百万条对比数据，结合用户反馈动态更新。

偏好排序（JSON）：

{"prompt":"解释量子力学","responses":[{"text":"量子力学研究微观粒子...","score":4},{"text":"物理的一个分支...","score":2}]}

数据来源：模型生成响应结合奖励模型打分，或在线交互数据。
关键技术：动态策略优化、稀疏奖励增强。
代表模型：
- ChatGPT：通过PPO算法优化策略，结合用户实时反馈。
- DeepSeek-R1：结合准确性奖励（数学/编程任务）和格式奖励（结构化输出），使用GRPO算法优化。

策略生成数据（JSON）：

{"prompt":"如何降低碳排放？","generated_response":"推广可再生能源...","reward":0.92}

医学领域（JSONL）：

{"text":"患者主诉持续头痛，MRI显示左侧颞叶异常信号..."}

数据处理工具：
- FlagData 2.0：支持PDF/HTML转JSON、分布式去重（MinHashLSH算法）。
- PAWS-X：多语言释义对数据集，提升模型对语序的敏感性。
典型数据集：
- C4：750GB清洗后的英文文本，用于T5预训练。
- MTP：3亿对中英文文本对，支持语义向量模型。

阶段	代表模型	数据方案特点	样例数据来源
预训练	GPT-3、T5	大规模无监督文本，多语言/多领域混合	Common Crawl、维基百科
SFT	Alpaca、盘古	高质量指令对，单轮/多轮结构化数据	人工标注问答
RM	GPT-4、Anthropic	人工偏好排序，对抗性样本覆盖	对比对标注
RLHF	ChatGPT、DeepSeek	动态策略生成，在线交互优化	模型生成+奖励反馈
领域适应	Codex、COIG	垂直领域数据增强，术语一致性检查	GitHub代码、医学文献

上次更新: 2025/06/25, 11:25:50