LLM_架构

Encoder-Only 架构：
- 定义与特点：该架构的核心思想是利用神经网络对输入文本进行编码，提取其特征和语义信息，并将编码结果传递给后续的处理模块。它专注于理解和编码输入信息，常用于分类、标注等任务。
- 优点：具有强大的理解能力，能够有效处理和理解输入数据；同时，其适用性广泛，可适用于多种分析型任务。
- 缺点：生成能力有限，不擅长自主生成文本或内容。
- 示例模型：Google 的 BERT
Encoder-Decoder 架构：
- 定义与特点：这种架构通常包含两个主要部分：encoder 和 decoder。Encoder 负责将输入序列编码为固定大小的向量，而 Decoder 则负责根据这个向量生成输出序列。它适用于需要生成文本的任务，如机器翻译、文本摘要等。
- 优点：能够生成高质量的文本输出，尤其在长序列生成任务中表现优异。
- 缺点：相较于 Encoder-Only 架构，其计算复杂度可能更高，需要更多的计算资源。
- 示例模型：T5 和 BART。GPT 系列模型，如 GPT-3，就是典型的 Encoder-Decoder 架构模型。
decoder-only：GPT
UNILM：PrefixLM（相比于 GPT 只改了 attention mask，前缀部分是双向，后面要生成的部分是单向的 causal mask），可以用这张图辅助记忆：encoder-decoder 架构：T5
GLM、XLNET、PrefixLM

上次更新: 2024/09/30, 12:36:54