Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • 前置篇

    • 模型仓库介绍
  • 基础篇

  • 架构篇

  • 训练篇

  • 微调篇

  • 常见模型篇

  • 大模型持续学习

  • 实战篇

  • 智能体
  • Scaling Law
  • temp
    • 大模型
    Geeks_Z
    2024-10-09
    目录

    temp

    为什么现在的 LLM 都是 Decoder only 的架构?

    1. 大模型的各种架构
    • Encoder-Only 架构:
      • 定义与特点:该架构的核心思想是利用神经网络对输入文本进行编码,提取其特征和语义信息,并将编码结果传递给后续的处理模块。它专注于理解和编码输入信息,常用于分类、标注等任务。
      • 优点:具有强大的理解能力,能够有效处理和理解输入数据;同时,其适用性广泛,可适用于多种分析型任务。
      • 缺点:生成能力有限,不擅长自主生成文本或内容。
      • 示例模型:Google 的 BERT
    • Encoder-Decoder 架构:
      • 定义与特点:这种架构通常包含两个主要部分:encoder 和 decoder。Encoder 负责将输入序列编码为固定大小的向量,而 Decoder 则负责根据这个向量生成输出序列。它适用于需要生成文本的任务,如机器翻译、文本摘要等。
      • 优点:能够生成高质量的文本输出,尤其在长序列生成任务中表现优异。
      • 缺点:相较于 Encoder-Only 架构,其计算复杂度可能更高,需要更多的计算资源。
      • 示例模型:T5 和 BART。GPT 系列模型,如 GPT-3,就是典型的 Encoder-Decoder 架构模型。
    • decoder-only:GPT
    • UNILM:PrefixLM(相比于 GPT 只改了 attention mask,前缀部分是双向,后面要生成的部分是单向的 causal mask),可以用这张图辅助记忆:encoder-decoder 架构:T5
    • GLM、XLNET、PrefixLM
    上次更新: 2025/06/25, 11:25:50
    Scaling Law

    ← Scaling Law

    最近更新
    01
    帮助信息查看
    06-08
    02
    常用命令
    06-08
    03
    学习资源
    06-07
    更多文章>
    Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
    京公网安备 11010802040735号 | 京ICP备2022029989号-1
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式