V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
nethard
V2EX  ›  分享创造

Stable Fast: 超轻量级 Stable Diffusion 推理优化框架

  •  
  •   nethard · 2023-10-17 18:26:22 +08:00 · 1685 次点击
    这是一个创建于 401 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人第一个正式开源项目,欢迎大家关注!聚焦于推理优化领域,希望能帮助到有相关模型推理加速需求的朋友,或者希望学习这方面知识的朋友。

    项目主页

    这是什么?

    stable-fast 是一个为 HuggingFace DiffusersNVIDIA GPUs 上的超轻量级推理优化库。 stable-fast 通过利用一些关键技术和特性提供超快的推理优化:

    • __CUDNN 卷积融合__:stable-fast 为各种组合的 Conv + Bias + Add + Act 计算模式实现了一系列功能齐全且完全兼容的 CUDNN 卷积融合运算符。
    • __低精度 & 融合的 GEMM__:stable-fast 实现了一系列使用 fp16 精度的融合 GEMM 运算符,这比 PyTorch 的默认设置更快(以 fp16 读取和写入,以 fp32 计算)。
    • __NHWC & 融合的 GroupNorm__:stable-fast 使用 OpenAI 的triton实现了高度优化的融合的 NHWC GroupNorm + GELU 运算符,消除了内存格式排列运算符的需要。
    • __完全追踪的模型__:stable-fast 改进了 torch.jit.trace 接口,使其更适合追踪复杂模型。几乎每一部分的 StableDiffusionPipeline 都可以被追踪并转换为 __TorchScript__。它比 torch.compile 更稳定,并且比 torch.compile 的 CPU 开销明显小,并支持 ControlNet 和 __LoRA__。
    • __CUDA Graph__:stable-fast 可以将 UNet 结构捕获到 CUDA Graph 格式,当批量大小小时可以减少 CPU 开销。
    • __融合的多头注意力__:stable-fast 仅仅直接使用 xformers 并使其与 TorchScript 兼容。

    与其他加速库的差异

    • __快速__:stable-fast 是专门为 HuggingFace Diffusers 优化的。它在所有库中都实现了最佳性能。
    • __简约__:stable-fast 作为 PyTorch 的一个插件框架工作。它利用现有的 PyTorch 功能和基础设施,并与其他加速技术兼容,以及流行的微调技术和部署解决方案。

    性能比较

    A100 SXM 80GB (SD v1.5, 512x512, fp16)

    框架 性能
    Vanilla PyTorch 23 it/s
    AITemplate 44 it/s
    TensorRT 52 it/s
    OneFlow 55 it/s
    Stable Fast (与 xformers & triton 共同工作) 60 it/s

    RTX 3090 Ti (SD v1.5, 512x512, fp16)

    框架 性能
    Vanilla PyTorch 16 it/s
    AITemplate 31 it/s
    TensorRT 33 it/s
    OneFlow 39 it/s
    Stable Fast (与 xformers & triton 共同工作) 38 it/s
    3 条回复    2023-10-27 21:25:31 +08:00
    eleganceoo
        1
    eleganceoo  
       2023-10-20 09:19:43 +08:00
    虽然看不懂,感觉挺厉害的
    nethard
        2
    nethard  
    OP
       2023-10-24 22:07:22 +08:00
    @eleganceoo 好像国内关注这个的比较少😂
    DanielNg23
        3
    DanielNg23  
       2023-10-27 21:25:31 +08:00
    大佬收下我的膝盖!要不要来我们这边打一下黑客马拉松💪,有国内 LLM 厂商的支持,线上/线下均可参加😊,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️🏄🎾🥏,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1339 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 17:44 · PVG 01:44 · LAX 09:44 · JFK 12:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.