temp

为什么现在的 LLM 都是 Decoder only 的架构?
- 大模型的各种架构
- Encoder-Only 架构:
- 定义与特点:该架构的核心思想是利用神经网络对输入文本进行编码,提取其特征和语义信息,并将编码结果传递给后续的处理模块。它专注于理解和编码输入信息,常用于分类、标注等任务。
- 优点:具有强大的理解能力,能够有效处理和理解输入数据;同时,其适用性广泛,可适用于多种分析型任务。
- 缺点:生成能力有限,不擅长自主生成文本或内容。
- 示例模型:Google 的 BERT
- Encoder-Decoder 架构:
- 定义与特点:这种架构通常包含两个主要部分:encoder 和 decoder。Encoder 负责将输入序列编码为固定大小的向量,而 Decoder 则负责根据这个向量生成输出序列。它适用于需要生成文本的任务,如机器翻译、文本摘要等。
- 优点:能够生成高质量的文本输出,尤其在长序列生成任务中表现优异。
- 缺点:相较于 Encoder-Only 架构,其计算复杂度可能更高,需要更多的计算资源。
- 示例模型:T5 和 BART。GPT 系列模型,如 GPT-3,就是典型的 Encoder-Decoder 架构模型。
- decoder-only:GPT
- UNILM:PrefixLM(相比于 GPT 只改了 attention mask,前缀部分是双向,后面要生成的部分是单向的 causal mask),可以用这张图辅助记忆:encoder-decoder 架构:T5
- GLM、XLNET、PrefixLM
上次更新: 2025/04/02, 12:03:38