Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • MLTutorials

  • Model

  • LLM

  • PTM

  • Multimodal

  • PEFT

  • LoRA&MoE

  • LongTailed

  • Transformer

  • Mamba

  • PyTorch

  • CIL

  • FSCIL

  • UCIL

  • MMCIL

  • 论文阅读与写作

  • GPU

  • 面试

    • Transformer_FFN
    • LLM_架构
    • AINotes
    • 面试
    Geeks_Z
    2024-06-26
    目录

    LLM_架构

    为什么现在的 LLM 都是 Decoder only 的架构?

    1. 大模型的各种架构
    • Encoder-Only 架构:
      • 定义与特点:该架构的核心思想是利用神经网络对输入文本进行编码,提取其特征和语义信息,并将编码结果传递给后续的处理模块。它专注于理解和编码输入信息,常用于分类、标注等任务。
      • 优点:具有强大的理解能力,能够有效处理和理解输入数据;同时,其适用性广泛,可适用于多种分析型任务。
      • 缺点:生成能力有限,不擅长自主生成文本或内容。
      • 示例模型:Google 的 BERT
    • Encoder-Decoder 架构:
      • 定义与特点:这种架构通常包含两个主要部分:encoder 和 decoder。Encoder 负责将输入序列编码为固定大小的向量,而 Decoder 则负责根据这个向量生成输出序列。它适用于需要生成文本的任务,如机器翻译、文本摘要等。
      • 优点:能够生成高质量的文本输出,尤其在长序列生成任务中表现优异。
      • 缺点:相较于 Encoder-Only 架构,其计算复杂度可能更高,需要更多的计算资源。
      • 示例模型:T5 和 BART。GPT 系列模型,如 GPT-3,就是典型的 Encoder-Decoder 架构模型。
    • decoder-only:GPT
    • UNILM:PrefixLM(相比于 GPT 只改了 attention mask,前缀部分是双向,后面要生成的部分是单向的 causal mask),可以用这张图辅助记忆:encoder-decoder 架构:T5
    • GLM、XLNET、PrefixLM
    上次更新: 2024/09/30, 12:36:54
    Transformer_FFN

    ← Transformer_FFN

    最近更新
    01
    Scaling Law
    09-24
    02
    模型优化
    09-18
    03
    各种Optimizer梯度下降优化算法回顾和总结
    09-13
    更多文章>
    Theme by Vdoing | Copyright © 2022-2024 Geeks_Z | MIT License
    京公网安备 11010802040735号 | 京ICP备2022029989号-1
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式