Geeks_Z の Blog Geeks_Z の Blog
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)

Geeks_Z

AI小学生
首页
  • 学习笔记

    • 《HTML》
    • 《CSS》
    • 《JavaWeb》
    • 《Vue》
  • 后端文章

    • Linux
    • Maven
    • 汇编语言
    • 软件工程
    • 计算机网络概述
    • Conda
    • Pip
    • Shell
    • SSH
    • Mac快捷键
    • Zotero
  • 学习笔记

    • 《数据结构与算法》
    • 《算法设计与分析》
    • 《Spring》
    • 《SpringMVC》
    • 《SpringBoot》
    • 《SpringCloud》
    • 《Nginx》
  • 深度学习文章
  • 学习笔记

    • 《PyTorch》
    • 《ReinforementLearning》
    • 《MetaLearning》
  • 学习笔记

    • 《高等数学》
    • 《线性代数》
    • 《概率论与数理统计》
  • 增量学习
  • 哈希学习
GitHub (opens new window)
  • 前置篇

  • 基础篇

  • 架构篇

  • 训练篇

    • 从零训练大模型
    • 大模型的数据
    • 大模型各阶段数据
    • 模型训练
    • 分布式训练
    • 大模型框架
      • 大模型框架分类整理
        • 一、训练框架
        • 二、推理加速框架
        • 三、开发与部署平台
        • 四、技术对比
    • DeepSpeed-Megatron MoE并行训练
    • 大模型数据精度
  • 微调篇

  • 常见模型篇

  • 大模型持续学习

  • 实战篇

  • 智能体
  • Scaling Law
  • temp
  • 大模型
  • 训练篇
Geeks_Z
2025-04-30
目录

大模型框架

大模型框架分类整理

一、训练框架

  1. LLAMA Factory
    • 定位: 开源高效微调框架,基于Hugging Face Transformers。
    • 功能:
      • 支持多种模型架构(LLAMA、BART、T5等)和任务(文本生成、对话系统、指令遵循)。
      • 优化资源利用效率,简化训练流程。
    • 适用场景: 研究者和开发者的快速实验与部署。

二、推理加速框架

  1. FasterTransformer

    • 开发者: NVIDIA
    • 功能:
      • 基于NVIDIA加速库(cuBLAS、cuDNN、TensorRT)优化Transformer模型推理。
      • 支持TensorFlow和PyTorch扩展,实现低延迟、高吞吐量推理。
    • 适用场景: 需要高性能推理的工业级应用,如实时翻译、内容生成。
  2. TensorRT

    • 开发者: NVIDIA
    • 功能:
      • 将PyTorch、TensorFlow等框架的模型转换为优化格式,提升GPU推理速度。
      • 支持动态张量、混合精度计算和内存优化。
    • 适用场景: 需要最大化GPU利用率的部署场景,如边缘计算、云服务。
  3. VLLM

    • 核心创新: PagedAttention 技术
    • 功能:
      • 通过内存管理和并行化技术,解决LLM推理中的内存瓶颈(尤其是KV缓存管理)。
      • 显著提高推理速度和吞吐量。
    • 适用场景: 长文本生成、高并发推理任务(如API服务)。

三、开发与部署平台

  1. LangChain

    • 定位: 开源LLM应用开发框架。
    • 功能:
      • 集成语言模型与外部数据源、工具(如数据库、API),构建复杂应用。
      • 支持链式任务编排和Agent设计。
    • 适用场景: 智能客服、自动化工作流、知识库问答系统。
  2. Dify

    • 定位: 开源LLM应用开发平台。
    • 功能:
      • 支持数百种模型(GPT、Mistral、Llama3等),提供声明式开发(YAML配置)。
      • 模块化设计、LLMOps(监控、优化)、私有化部署。
    • 适用场景: 企业级定制化AI应用(如内部知识助手、自动化报告生成)。
  3. Ollama

    • 定位: 本地化LLM部署框架。
    • 功能:
      • 简化本地机器上的LLM运行(如模型加载、资源管理)。
      • 支持轻量级交互接口,适合离线环境。
    • 适用场景: 开发者本地调试、隐私敏感场景(如医疗、金融数据分析)。

四、技术对比

框架 核心优势 适用阶段 开发者/厂商
LLAMA Factory 高效微调、多模型支持 模型训练 开源社区
FasterTransformer NVIDIA硬件深度优化 推理加速 NVIDIA
VLLM PagedAttention内存管理 推理加速 开源社区
LangChain 多工具集成、任务链设计 应用开发 开源社区
Dify 企业级LLMOps、私有化部署 开发与部署 开源社区
Ollama 本地化轻量部署 本地运行 开源社区
TensorRT 模型转换与极致GPU优化 推理加速 NVIDIA

注:以上框架可根据实际需求组合使用(如使用LLAMA Factory微调模型,通过TensorRT部署加速)。

上次更新: 2025/06/25, 11:25:50
分布式训练
DeepSpeed-Megatron MoE并行训练

← 分布式训练 DeepSpeed-Megatron MoE并行训练→

最近更新
01
帮助信息查看
06-08
02
常用命令
06-08
03
学习资源
06-07
更多文章>
Theme by Vdoing | Copyright © 2022-2025 Geeks_Z | MIT License
京公网安备 11010802040735号 | 京ICP备2022029989号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式