V2EX › shuimugan 的所有回复 › 第 3 页 / 共 24 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 24

❮

❯

202 天前

回复了 CoffeeLeak 创建的主题 › 分享创造 › 折腾 Llama3 跑在 NAS...结果确实一言难尽

CPU 跑大模型推理瓶颈就是在内存带宽，按 ddr4 双通道内存带宽为 30GB/s 的速度来算，7B 规格的 8bit 量化，也就 4 token/s 左右的速度，4bit 量化就速度 x2 ，14B 规格就速度除以 2 ，偏差不会太大。

225 天前

回复了 random1221 创建的主题 › 宽带症候群 › 2024 年内网穿透的最佳方案是什么？

先考虑一下把公司电脑的远程桌面端口暴露到公网，被弱口令爆破或者 0day 打穿之后，蔓延到公司内网中毒时，你需要负什么责任吧...

动手能力好就 tailscale 加自建 derby ，动手能力差就 WireGuard 傻瓜脚本 https://github.com/angristan/wireguard-install

226 天前

回复了 Awes0me 创建的主题 › Windows › 觉得 Windows 难用的是不是都是笔记本和 amd 用户？

我觉得我的 5900x + 128GB 内存 + 2080ti 22g 跑 Windows 10 LTSC 很好用，打开软件速度很快，不用像 Mac 那样图标弹弹弹弹弹弹弹弹才蹦出界面。
当然跑 Debian + KDE 更好用。

-- 发送自睾贵的 192GB M2 Ultra （ 24 核 cpu + 76 核 gpu 版） Mac Studio 带 AppleCare 国行非海南免税店版

226 天前

回复了 inSpring 创建的主题 › Node.js › 做个调研，兄弟们，你们公司后端框架目前用的是哪个？ Express、Koa、NestJS？

@289396212 想追求更好的方案呗，做做减法。一些常用的东西，.Net 的第一方支持更好。比如表单校验规则写好了，Swagge 文档也就生成好了。而在 Nest.js 里既要用 class-validator ，又要用 @nestjs/swagger ，一共 2 套装饰器才能实现；

像 http client 这种常用的东西，got 、undici 、got-scraping 选择太多的同时它们迭代多年还小 bug 不断。

还有 AOT 可以压缩更极限：像 pkg 本质上也就是把用到的 js 文件选出来压缩到一起，运行的时候实际上还是要解压的，只是解压得少一些而已，而且跨平台编译需要用 qemu 虚拟机，很重。

还有性能分析诊断的工具、冷启动速度、资源占用等，都是 C# 可以做到更好。

现在我本地可以跑比较大的模型，可以当作是无限 token 消耗，所以也想趁机看看用 AI 把整个项目翻译成另一种语言的可行性，这样以后也能把一些别的语言流行库进行一个大翻译，搞不好以后就是世界大同。

当然，追求极致还得用 Rust ，现阶段只是在性能和开发效率之间取一个平衡，现在 AI 写 Rust 代码的准确率还是不高。等下一步 AI 进化了，一次性写对代码的几率大幅度提高了，就再迁移了，反正拆分得好可以一层一层迁移。

227 天前

回复了 inSpring 创建的主题 › Node.js › 做个调研，兄弟们，你们公司后端框架目前用的是哪个？ Express、Koa、NestJS？

@Arguments AdonisJS 前面的大版本不支持 TypeScript ，而且是抄的 Laravel 的设计。然而 Laravel 抄的是 Ruby on Rails ，结果没抄到精髓，AdonisJS 这波操作属于把别人消化到一半的东西吃了过来……只能说 AdonisJS 适合 Laravel 用户去使用了。

227 天前

回复了 inSpring 创建的主题 › Node.js › 做个调研，兄弟们，你们公司后端框架目前用的是哪个？ Express、Koa、NestJS？

用了好多年的 Nest.js 了，大概从 6.x 用到现在的 10.x ，也没什么大变更。
选 Nest.js 看中的是 TypeScript 优先，然后集成了 class-validator 可以开箱即用。
其它自己集成的什么 http client 、数据库、缓存、消息队列、不喜欢就自己糊一个。
至于它的依赖注入，除了控制器和模块这一层，service 层你都可以不用依赖注入，完全走静态函数，反正 js 这种脚本语言可以在运行时修改 class 的 method ，mock 起来非常简单。
最大规模试过在 30 个 4c8g 的 contabo vps 上用 k3s 部署爬虫，套个 rancher 面板，部署一年多，稳如狗，用 DaemonSet 跑网络 IO 相关的操作，全流式操作，内存占用两百多兆，每个节点每月 32T 流量吃到饱。分析计算用 Deployment ，完全的 IO 和计算分离。
至于 web api ，现在用 Nest.js + Supabase ，日常内存占用也就 90MB 左右，需要事务那就换 Prisma ，内存占用高一些，150MB 左右。
结合 pkg 可以把项目打包成单个二进制文件塞到容器里，一般就 70MB 左右，冷启动贼快，丢到 1c1g 的容器里都算是打很富裕的仗了。

至于现在，我在把 Nest.js 的程序结合 AI 迁移到.Net 上…… 现在迁移了一个应用，确实很香。

229 天前

回复了 weijancc 创建的主题 › Vue.js › 升级 Vue3, 开发体验非常糟糕

早知道，还是 angular

233 天前

回复了 fever 创建的主题 › 宽带症候群 › 有没有熟悉 openvpn 的同学给看看

最近刚好在折腾这个，直连外面 2 周没啥问题，用 https://github.com/dockovpn/dockovpn 这个搭建的，如果是 docker compose 运行结合 https://github.com/dockovpn/dockovpn/issues/221 这个就搞定了，客户端也是 tls 。
有一说一 openvpn 真的老旧又落后，也就是为了直接在华硕的路由器上使用才选的，平时我都用 wireguard 。

245 天前

回复了 renmu 创建的主题 › 程序员 › 想到一个前端加密对付爬虫的方案，不知道有没有可行性

Deno:?

251 天前

回复了 yumozero 创建的主题 › 程序员 › 选什么当开发机比较好？

https://item.jd.com/100007630859.html 联想自家笔记本 ddr4 内存，我的 r7000p 5800h 就是塞了 2 条这个凑的 64g

251 天前

回复了 yumozero 创建的主题 › 程序员 › 选什么当开发机比较好？

@yumozero 客服懂个锤子，有时候厂商也是瞎写的，在 xps 自家页面写主持 32g 的时候我就上到了 64g 。你这款可以直接上 64g 。我就是这款，5800h+6600m 是吧，或者 5800h+3060

251 天前

回复了 yumozero 创建的主题 › 程序员 › 选什么当开发机比较好？

把你游戏本的具体型号发出来，有 2 个插槽不一定只支持到 32g 。

253 天前

回复了 shoumu 创建的主题 › 程序员 › 打算配一台主机用于跑大模型玩，大佬们有推荐的配置吗

拿 2080ti 22g 跑 13B 8bit 量化，都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别，如果不是特别训练单一领域的，那么就是一个弱智。
比如最近最近新出的 StarCoder2 ，号称涵盖 619 种编程语言，我下载下来问几个语言、常用编程库、数据库之类的版本信息，15B 的训练数据落后 6 年，7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了，屎中屎，无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存，然后每生成一个字都需要把整个模型遍历访问一遍，所以决定速度的就是运存带宽（预训练或者微调时需要计算能力，但推理时几乎不需要，就是沿着预训练好的权重选择下一步路径，所以哪怕 1060 配上 48G 显存也是推理神器）。比如 7B 模型的 8 位量化版本，每个权重占一个字节所以就是 7G 大小（ 7B 参数是指有 70 亿个权重，8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能，也就是占用 1 比特的空间，同理目前性价比最高的 Q4 量化就是 3.5G ），如果是加载到 4090 的显存，因为它的 GDDR 显存带宽是 1000GB/s ，那么生成速度就是 1000 除以 7 大概每秒 140 个字（词元）；如果是纯 CPU 推理，加载到 DDR4 的内存，带宽大概 30GB/s ，那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大，ddr5 双通道带宽也就 70 ～ 100GB/s ，是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分，不活跃的丢 CPU ，活跃的丢 GPU ，既要避免 cpu 在围观 gpu 干活，又要避免 cpu 因为内存瓶颈干活慢，比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测，用 M2 Ultra 192GB 玩了 3 个月了，最近就是因为它跑大模型的时候 cpu 不干活，我看不下去它在摸鱼，本来丢货架上不接显示器的，现在都接上显示器拿来写代码了。

附：本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard 。

256 天前

回复了 importmeta 创建的主题 › 程序员 › 2C4G5M 能不能支持 Next Nest MongoDB Redis(20 多个消息队列)

和 Rocket.Chat 很像，本地跑起来看看就懂了 https://github.com/RocketChat/Rocket.Chat/blob/develop/docker-compose-local.yml

258 天前

回复了 RedisMasterNode 创建的主题 › 程序员 › 有人像我一样讨厌本地无法运行起来的项目的吗？

本地跑不起来的项目，搞不好触发一个逻辑要找好几个人。
本地能跑起来的项目，想加断点就加断点，想加 hook 就加 hook ，想复制流量就能复制，数据库甚至是虚拟机随时可以备份和还原环境，效率贼高，谁还想碰那些效率巨低的东西。

258 天前

回复了 Davic1 创建的主题 › 程序员 › 腾讯的蓝鲸运维平台，真的好用吗？

蓝鲸的代码就是一坨屎山，我第一次见一个系统同时用了 3 个消息队列和 2 个数据库，就是不同部门的产品强行缝合出来的怪物。
还有那个 cmdb ，我上一次看它有六千多个提交，跑起来还强耦合它其他系统，功能也没见有多丰富，很多提交都是"添加 xx 查询条件"和"xx 接口支持了 xx 字段"，拿个 directus 建模拉个字段 2 天就能完成 cmdb 里 90%的功能。

259 天前

回复了 KisPower 创建的主题 › 生活 › 和父亲彻底闹僵了！

https://www.bilibili.com/video/BV18S421P7uM 看看这个。
觉得不爽就拉黑，不见，不要被道德绑架，每个人都应该为自己而活。

263 天前

回复了 xiaoshu 创建的主题 › 程序员 › [万字长文] 业务网关建设（Nodejs）细节满满

@xiaoshu 1c2g 能到这个 QPS ，挺接近 http 库裸跑 hello world 性能了，达到这个性能应该是 https 流量在上层卸载了（印象中腾讯云分享过服务器装 ssl 加速卡来优化），加上服务器的 cpu 指令集优化，网关层自身业务应该不重。
腾讯云那个 api 网关有用过，印象中扩展都是通过 serverless 的，这样看应该是把 cpu 计算都尽可能抛出去了，响应结果压缩这块应该也不是这一层做的吧？

263 天前

回复了 xiaoshu 创建的主题 › 程序员 › [万字长文] 业务网关建设（Nodejs）细节满满

这个网关现在部署在什么规模的集群上？最小的那个节点能抗多大的并发，占用多少资源？

1 2 3 4 5 6 7 8 9 10 ... 24

❮

❯