Ayahuasec 最近的时间轴更新
Ayahuasec

Ayahuasec

V2EX 第 368789 号会员,加入于 2018-12-07 15:17:58 +08:00
今日活跃度排名 9523
求推荐软件,用于方便的绘制详细的数据流图
问与答  •  Ayahuasec  •  323 天前  •  最后回复来自 Ayahuasec
4
讨论一下 AI 的安全问题
  •  1   
    OpenAI  •  Ayahuasec  •  2023-04-04 21:45:21 PM  •  最后回复来自 Ayahuasec
    14
    两端都有 IPv6 防火墙,如何点对点连接?
    问与答  •  Ayahuasec  •  2023-02-23 23:28:47 PM  •  最后回复来自 Ayahuasec
    5
    有刷了最新版 MIUI 开发版的老哥帮忙看一下 swap 设置吗
    问与答  •  Ayahuasec  •  2021-11-11 11:27:30 AM  •  最后回复来自 AoEiuV020
    1
    有没有什么 Chrome 插件能够自动保存浏览的网页
    Chrome  •  Ayahuasec  •  2021-08-28 11:40:10 AM  •  最后回复来自 fucku
    16
    怎么在微信里打开本地网页
    问与答  •  Ayahuasec  •  2020-08-18 19:33:37 PM  •  最后回复来自 Ayahuasec
    4
    Linux 有负载率没有 CPU 占用没有磁盘 IO 等待,怎么排查问题
    问与答  •  Ayahuasec  •  2020-06-25 01:21:08 AM  •  最后回复来自 vk42
    1
    Ayahuasec 最近回复了
    @godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

    虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
    用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ,卸载了 20 层到 GPU 上,把 context 限制在 2048 的话,跑 q4km 量化的 14b 模型,日志文件里记录的一次速度如下:
    llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
    llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

    有 GPU 加速的话 Prompt Eval 的速度会非常快,基本上发出几百个字的文本给模型以后,马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右,体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复( 500 字可能要等半分钟的样子)。

    但是 RTX4050 的显存比较小,如果要开启比较大的 context 的话,就只能往显存上放更少的层,模型的输出速度就会慢下来。不过我感觉可用性还是挺好的,至少出门在动车上的时候连不上网就可以直接问本地模型了。
    “研究生+要解决实际问题” 看到这两个条件,我感觉可以了解下 MatLab ?学校没买授权也不想掏钱买学生版的话,可以用开源的 Octave 平替。

    MatLab 的文档很全,学过 Python 的话上手也应该很快,而且有问题也可以问 AI 。比如如果需要数据支撑或者论证观点的时候,就可以问 AI 需要什么数学工具或方法,然后用 MatLab 实现,以及可以输出合理的图可以放进论文里之类的。感觉可能对 op 的主业会比较有帮助。
    120 天前
    回复了 wxd21020 创建的主题 NAS 配置小主机跑大模型
    我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
    121 天前
    回复了 857681664 创建的主题 旅行 2024 春节厦门游记
    以前听同学说厦门应该中秋去,中秋比较热闹,那边过节能过上一个月
    我记得是命令 nvidia-smi -pl 10 就能设定限制功耗在 10W ,可以按自己的卡调一调,但是这只是软件限制,实际跑起来还是有可能超过设定值。以前测试是可以略微降低一点点待机功耗,但是台式机的话好像意义不大,笔记本可以在独显闲置的时候挤出来点电池续航时间。
    4060ti 16G 已经能跑不少东西了

    预算再往下还有条 Tesla P100 16G 的野路子
    230 天前
    回复了 flypei 创建的主题 VPS 阿里云 ECS 2C2G 3M, 99/年,已入手
    本来下单以后还觉得挺便宜的,然后发现阿里云的 IPv6 还要额外开通,1Mbps 是 0.96 元/天。国外 VPS 基本上 IPv6 都直接送的,到阿里云这要额外收费了…
    252 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    @allmightbe #18 修一个上一个回复(#19 )的 bug ,看到你这张图我想起来了,BL=8 的时候列地址的低 3 位也是不用的,保持为 0 。列地址一般是 10 bits ,上面这个例子其实应该是{row[15:0], column[9:3], bank_addr[2:0], 6'h0},或者也可以说是{row[15:0], column[9:3], bank_addr[2:0], column[2:0], 3'h0}。
    252 天前
    回复了 allmightbe 创建的主题 程序员 DDR 的交织原理有点不理解?
    @allmightbe #17 一个 column 对应的是多个 bits ,比如 x16 的颗粒是 16 bits ,如果一个控制器连的所有颗粒总计 DQ 是 64 位(比如一个 dimm ),就需要 4 个 x16 的颗粒,那这种情况下每个 column 地址其实是 8 bytes 。对应到按 1 byte 的字节的地址空间,其实是低 3 位不用。

    举个例子,假如说地址空间是 32 位,那 Row-Column-Bank 编址可能是{row[15:0], column[9:0], bank_addr[2:0], 3'h0},这样连续读写可以用到所有 Bank 。

    未对齐的访问一般在 Cache 端的控制器做,或者用 CPU 的异常中断做,Cache 到 DDR 一般只让对齐访问。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3038 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:17 · PVG 20:17 · LAX 05:17 · JFK 08:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.