V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sunmacarenas
V2EX  ›  NVIDIA

Nvidia Jetson AGX Ori 开发者套件

  •  
  •   sunmacarenas · 2023-09-19 10:53:39 +08:00 · 2972 次点击
    这是一个创建于 460 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有了解 Nvidia Jetson Agx ori 的吗? 想入手一个 64G 的用来玩玩,chatglm2 和 SD,看参数有 270Tops 运算能力。

    第 1 条附言  ·  2023-09-19 15:00:02 +08:00
    看到有大佬的教程,跑 llama2 7B 和 13B ,感觉推理速度还可以,有兴趣的可以看下链接内容
    https://www.hackster.io/pjdecarlo/llama-2-llms-w-nvidia-jetson-and-textgeneration-web-ui-96b070
    42 条回复    2023-09-19 22:18:04 +08:00
    sunmacarenas
        1
    sunmacarenas  
    OP
       2023-09-19 11:01:24 +08:00
    有 Nvidia 大佬吗,能给个优惠码么?
    ysc3839
        2
    ysc3839  
       2023-09-19 11:28:51 +08:00 via Android
    坑多,个人感觉意义不大,虽然都支持 CUDA ,但相关软件未必像 N 卡那样能开箱即用。而且视频编解码接口是完全不兼容 N 卡的那套的,至少老产品是不兼容的。
    leimao
        3
    leimao  
       2023-09-19 11:35:56 +08:00
    是 Orin 不是 Ori
    sunmacarenas
        4
    sunmacarenas  
    OP
       2023-09-19 11:36:01 +08:00 via Android
    @ysc3839 主要为了折腾,坑多倒是不怕。YouTube 上看了一些视频,跑 llama2-13b 能有 2tokens 左右的速度,主要看它体积小,如果换 n 卡 4090 的话体积太大,功耗太高,而且两张 4090 有些超预算了。
    sunmacarenas
        5
    sunmacarenas  
    OP
       2023-09-19 11:36:18 +08:00 via Android
    @leimao 多谢指正
    leimao
        6
    leimao  
       2023-09-19 11:39:06 +08:00
    @ysc3839 Orin 上有低功耗的 Deep Learning Accelerator ,这个是 data center GPU 不具备的。
    leimao
        7
    leimao  
       2023-09-19 11:40:44 +08:00
    @sunmacarenas llama 我没怎么用过,建议去找一下 NVIDIA 官方 examples 或者询问社区。计算机视觉的一些模型运行起来速度还是很快的,比上一代 Xavier 快了特别多。
    leimao
        8
    leimao  
       2023-09-19 11:44:18 +08:00
    @sunmacarenas 另外,这个 270TOPS 的运算能力有相当大一部分是 Deep Learning Accelerator 的 TOPS 。而目前 Deep Learning Accelerator 对于 LLM 模型的支持,可能还在开展中。如果 LLM 是主要应用的话,建议提前做好调研。
    sunmacarenas
        9
    sunmacarenas  
    OP
       2023-09-19 11:46:35 +08:00 via Android
    @leimao 好的,非常感谢大佬
    WuSiYu
        10
    WuSiYu  
       2023-09-19 12:20:04 +08:00 via iPhone
    jetson 是给嵌入式(比如车机)用的,规模和普通 GPU 还是差不少,那个 270TOPS 是 int8+稀疏,实际跑常见的 fp16 非稀疏得除 4 ,实际性能会比 3070 还低一两倍,跑 sd 会非常慢。另外 nvdla 主要是低功耗用途,性能不高,跑大模型没帮助
    sunmacarenas
        12
    sunmacarenas  
    OP
       2023-09-19 12:27:57 +08:00 via Android
    @WuSiYu 跑 int4 的量化模型呢,速度也非常慢吗?
    elechi
        13
    elechi  
       2023-09-19 13:29:08 +08:00
    淘宝
    ambition117
        14
    ambition117  
       2023-09-19 13:34:46 +08:00 via iPhone
    orin 出了好久了,而且最近有传言 DLA 要被放弃
    mushuanl
        15
    mushuanl  
       2023-09-19 13:56:00 +08:00 via iPhone
    计算力上去后大模型主要跟内存速度有关,要跑大模型并且想简单,还是建议 mac + llama.cpp, 800gb/s 速度可以直接跑 falcon 180b (得 192g 内存版本的) 个人觉得这个模型虽然微调难度大,但微调结果超过 gpt3.5
    wodong
        16
    wodong  
       2023-09-19 14:17:49 +08:00
    一直在 Orin 上做无人机自动识别相关,但完全没考虑到太多性能问题 ,但是比上一代确实流畅太多了,公司购买的 16+256 4G 版本,8200 左右(设备全都封装好了,开箱即用)
    timeance
        17
    timeance  
       2023-09-19 14:18:20 +08:00
    @ambition117 #14 22 年中才出的 AGX Orin ,而且相比上一代这代 NV 推的力度还是比较大的

    而且 Jetson 这个板子,主打的是低功耗 跑推理用的。拿来做训练不合适
    timeance
        18
    timeance  
       2023-09-19 14:20:14 +08:00
    @wodong #16 如果是 16g ,我猜是 Orin NX ,这个价格真的贵了(

    市场价在 6-7k 是比较合适的
    sunmacarenas
        19
    sunmacarenas  
    OP
       2023-09-19 14:44:28 +08:00
    @timeance 64G 的,主要是用来推理,价格大概 16000 左右。是 Jetson AGX ORIN 64G
    wodong
        20
    wodong  
       2023-09-19 14:46:32 +08:00
    @timeance #18 没办法,自己公司没有封装封装能力,就只能给人家转这笔钱了
    sunmacarenas
        21
    sunmacarenas  
    OP
       2023-09-19 14:47:59 +08:00
    @mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本,但预算有点超太多了,而且本来也是学习玩票的性质,感觉没啥必要,主要是穷,下不去手。
    sunmacarenas
        22
    sunmacarenas  
    OP
       2023-09-19 14:50:28 +08:00
    @ambition117 DLA 被放弃,那有下一代的消息么,主要是看他统一交换内存,64G 够大,还能跑 CUDA,价格还合适
    timeance
        23
    timeance  
       2023-09-19 14:53:54 +08:00
    @sunmacarenas #19

    64G 开发者套件确实要 1.6w ,不便宜

    现在用这个的还不够多,我也很奇怪这个芯片这么贵,什么地方用会合适一些
    另外内存是 LPDDR5 ,12 核 A78AE ,2048 Ampere + 64 Tensor ;会影响性能吗?
    ShadowPower
        24
    ShadowPower  
       2023-09-19 15:00:26 +08:00 via Android
    有段时间我也想弄一个这种玩意,后来深入研究一下发现不如买一块显卡。

    比如 bitsandbytes 这玩意理论上支持 CUDA ,实际上不支持 Jetson 。

    有像这样的坑。
    sunmacarenas
        25
    sunmacarenas  
    OP
       2023-09-19 15:02:32 +08:00
    @timeance #23
    这个倒是没太了解,不过看了几个大佬的教程和视频,感觉没太影响性能
    sunmacarenas
        26
    sunmacarenas  
    OP
       2023-09-19 15:05:47 +08:00
    @ShadowPower #24
    不是买显卡的问题,主要是买了显卡还要配一整套环境,感觉就像为了这点醋,特意包了顿饺子。
    而且一整套环境,体积太大了,桌面和桌子底下也没地方,功耗还高。
    ambition117
        27
    ambition117  
       2023-09-19 15:26:52 +08:00
    @sunmacarenas DLA 对 transformer 没啥用,transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了
    yewuya
        28
    yewuya  
       2023-09-19 16:38:14 +08:00
    @wodong 第一次在 V2EX 遇见跟我做差不多业务的研发,不容易
    wodong
        29
    wodong  
       2023-09-19 16:40:11 +08:00
    @yewuya #28 好兄弟你做啥的
    yewuya
        30
    yewuya  
       2023-09-19 16:46:12 +08:00
    @wodong 我业务做点机载端算法部署,主要是做无人机飞行控制,处理业务逻辑相关的,航线飞行,推流,数据传输乱七八糟的。
    wodong
        31
    wodong  
       2023-09-19 16:46:38 +08:00
    @yewuya #30 来加波好友吗?我也差不多就这样的
    yewuya
        32
    yewuya  
       2023-09-19 16:50:42 +08:00
    @wodong VX : d3VqaW5odWkwMjA2
    lingeo
        33
    lingeo  
       2023-09-19 16:57:13 +08:00
    工作需要,搞过 nano 和 nx ,我的工作偏数采,另一个同事负责模型。我的感觉就是性能不够,视频编解码方面,官方比较侧重用 gstreamer ,学习成本高,ffmpeg 官方只提供了解码功能,社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版😟。
    mushuanl
        34
    mushuanl  
       2023-09-19 20:45:05 +08:00 via iPhone
    要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ,跟得上自己的速度。但是关键是现在没有 ai 应用场景,也就是除了 gpt4 场景外 其他的比较弱,如果你不喜欢玩 roleplay ,并且没有自己的 ai 想法,那么可能过段新鲜感时间后基本就不玩了
    mushuanl
        35
    mushuanl  
       2023-09-19 20:49:38 +08:00 via iPhone
    现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天,功能太弱,最大的那个 180b 刚出,看看有没人调教,我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能
    WuSiYu
        36
    WuSiYu  
       2023-09-19 20:52:04 +08:00
    @sunmacarenas
    首先跑 LLM 和跑 stable diffusion 是截然不同的工况,LLM 如果你个人用,也就是 batch 1 的话,对计算的需求很低,GPU 上基本都跑不满,但 llama2-13b 2token/s 也不算快的了。
    int4 量化仅是权重是 int4 的,主要还是为了节省显存,实际推理的时候都是 fp16 (更常见)或者 int8 ,并且都不是稀疏。

    而 stable diffusion 非常的计算密集(尤其是跑大图),对显存容量需求不高,十几 G 肯定够用,4090 是最合适的,从浮点算力上估计会比 orin agx 快 5 到 10 倍
    WuSiYu
        37
    WuSiYu  
       2023-09-19 20:56:18 +08:00
    @sunmacarenas 作为参考,A100 上跑推理大概能到 3000+ token/s ,当然这是比较大 batch 的情况
    sunmacarenas
        38
    sunmacarenas  
    OP
       2023-09-19 21:39:23 +08:00 via Android
    @mushuanl 后续可能会在企业中微调生成行业模型
    sunmacarenas
        39
    sunmacarenas  
    OP
       2023-09-19 21:41:55 +08:00 via Android
    @mushuanl 个人先玩玩,企业会用 H100 之类的微调吧
    sunmacarenas
        40
    sunmacarenas  
    OP
       2023-09-19 21:43:16 +08:00 via Android
    @WuSiYu 个人玩具,其实慢一点也就能接受。
    mushuanl
        41
    mushuanl  
       2023-09-19 22:16:52 +08:00 via iPhone
    企业微调要求全尺寸 nv gpu ,个人玩可以用量化模型。另外现在企业微调的效果并不是很好,包括 rag(提供上下文进行推理),所以现在大模型开始有点冷了,就看看谷歌出的模型如何了。
    mushuanl
        42
    mushuanl  
       2023-09-19 22:18:04 +08:00 via iPhone
    全尺寸模型,也就是 gpu 内存要求很大微调成本很高。一般就租云服务器去练习。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 21:44 · PVG 05:44 · LAX 13:44 · JFK 16:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.