V2EX › shuimugan 的所有回复 › 第 1 页 / 共 25 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 25

❮

❯

44 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@mewking pcie 通道速度不会降低多少性能，现阶段 ExoLabs 的方案是靠网络通信都能玩，推理模型交换数据挺少的，刚好新鲜出炉一个部署案例 https://www.bilibili.com/video/BV1FvQrYQEPc

48 天前

回复了 FriedRiceNoodles 创建的主题 › 程序员 › 掘金感觉也沦陷了，现在还有什么相对纯粹的技术社区吗？

掘金成为掘屎好多年了吧，我现在一般看 reddit 为主
https://www.reddit.com/r/webdev/
https://www.reddit.com/r/programming/
https://www.reddit.com/r/devops/
https://www.reddit.com/r/LocalLLaMA/

53 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@mkdirmushroom
@jqknono
我的 Mac Studio 就是 192GB 的 M2 Ultra ，对于 M3 Ultra 跑 deepseek V3/R1 的速度我意见和 33 楼一致，最多是随着上下文越大速度不断衰减

53 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@dongfanga 但是两者的激活参数差不多，速度上差距不大，得具体实测所有题目才好说，我只测了代码能力。而且 qwq-32b 跑起来条件太简单了，搞两张 16-24g 显存的卡，2 张 a770 都可以没什么压力

53 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

@dongfanga 可行啊，我玩了一天了，6bit 量化下回答质量和 grok3 差不多

54 天前

回复了 Unclev21x 创建的主题 › Apple › 苹果刚刚推出了新款 Mac Studio

32B 模型 4bit 量化在 M2 Ultra 可以跑到 42token/s （开启 KV Cache ），而 deepseek v3 和 r1 的激活参数量都是 37B ，总参数量 671B ，在 512GB 内存上跑 4bit 量化为主，大体上也是 40~45token/s 左右（对比 M2 Ultra 算力和带宽的提升和激活参数变化所得）。
对比 deepseek 现在的官网价格，v3 每百万 token 输出为 8 元，r1 是 16 元，用 Mac Studio M3 Ultra 512GB 拿来跑 deepseek v3 的话大概是 74249/8 * 1000000 / 45 / 86400 = 2387 天回本，跑 r1 回本速度快一倍，只需 1193 天。

56 天前

回复了 momowei 创建的主题 › 计算机 › 帮忙看看这个 diy 装机配置搞开发怎样

@ifwww 我装过 3 个开发机了，一开始都是想着扩展性，到最后最多也就插个显卡插个机械盘。不如小型化，平时也方便带去公司做个团队测试环境，淘汰了还方便寄给家人。

56 天前

回复了 momowei 创建的主题 › 计算机 › 帮忙看看这个 diy 装机配置搞开发怎样

搞个 7945HX 准系统就行了比如 https://item.jd.com/10122934326058.html ，两千多，16 核 32 线程，功耗低性能强，搞成迷你主机方案还不占地方，再插 2 条 48g 内存，妥妥的小钢炮。

68 天前

回复了 oldManNewThought 创建的主题 › 程序员 › 求大佬指点， ai 加知识库的内部原理

就是找出相关内容然后字符串拼接，看 llamaindex 代码就懂了，知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

消耗 token 那是肯定的，所以去年 5 月 deepseek 把价格打到几乎是全行业的 1%，搞得其它几家也跟着降价，不然现在哪有那么多知识库的需求。

73 天前

回复了 lucien94xxx 创建的主题 › Local LLM › Deepseek R1 671B 本地部署计算机硬件配置？

什么并发要求？
https://x.com/carrigmat/status/1884244369907278106 6000 美元，用双路 epyc + 24 通道 ddr5 跑 q8 规格，6~8 token/s ，实际功耗不到 400w ，当然随着上下文越大每秒 token 数会下降，而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存，和 23 年年底上海交大那个 PowerInfer 思路很像，充分利用 CPU 和 GPU 的资源，按照上面的 cpu 方案加几块卡就够了。

需求不急的话可以等一波，先用着各种供应商提供的 api （ together.ai 、fireworks.ai 等）

73 天前

回复了 raw0xff 创建的主题 › Local LLM › 想让本地运行的大语言模型可联网该怎么做?

https://docs.openwebui.com/features/ 这个集成了搜索，源码里集成了好几家搜索引擎，免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ，在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。

85 天前

回复了 importmeta 创建的主题 › Node.js › 吐槽一下 Nest.js 太复杂了

Nestjs 封装是有点过度了，既然是 TypeScript 这种语言加上 Node 的 runtime ，很多东西是可以做减法的。
我用的时候就做了很多减法，比如：
service 全部用 static 函数，就不需要注入了，要 mock 直接 class.method = function(){}，要是非 static 的就 class.prototype.method 重新赋值来覆盖；
Providers 直接不用，官方案例简直是神经病连 HttpClient 都封装一层，它以为自己在用.NET 上吗，还不如开个文件在里面定义个常量然后导出，不也是全局唯一的吗；
Guards 也放弃，哪来那么多策略，直接在 Middleware 里简单鉴权就行了，复杂的我宁愿单独写一个 api 网关；
Modules 只拿来做业务模块区分，里面只引入控制器；

现在，我直接换 hono 了，搞个 module 文件夹自己分层就好了

85 天前

回复了 leenhawk2 创建的主题 › 程序员 › 安卓 16 支持 Linux 子系统了

连 Linux 子系统都支持了，按这个发展说不定再迭代几个版本就把 Chrome OS 给合并完了，然后放弃 Chrome OS

86 天前

回复了 scienhub 创建的主题 › 程序员 › 腾讯云的 nodejs sdk 安装后 85M

@datou 看走眼了，还以为只用了腾讯云的 cos 。要是用 deno 的话在代码目录就可以没有 node_modules 了，眼不见为净。

to 楼主，node 项目我以前用 pkg 打成二进制放容器里的，整个 Docker 镜像压缩后只有 60~70MB 左右，还挺好用

87 天前

回复了 scienhub 创建的主题 › 程序员 › 腾讯云的 nodejs sdk 安装后 85M

已经不用 Node 了，现在小项目在选 Deno 和 Bun 。Bun 在 1.2 内置了 S3 和 Postgres 客户端，可以给项目做不少减法 https://bun.sh/blog/bun-v1.2

89 天前

回复了 bwijn 创建的主题 › Python › scrapy 的 item 队列把内存挤爆

scrapy 出来的时候还没什么 serverless 的概念，都是靠堆机器的方式来增加抓取规模，但是它的 IO 和计算没有分离，必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后，你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务，如果是单纯搞搞字符串之类的，可以使用 cloudflare worker 把计算部分分离出去，甚至把 IO 部分也可以分离出去（ IO 等待不计时，deno deploy 也是）。

111 天前

回复了 yhtbiy 创建的主题 › NVIDIA › RTX 5090,1999 美元，各位老哥准备入手嘛

@dongfanga 不好说，等产品出来了有评测对比才知道。Mac 跑大模型的劣势就是到目前为止还用不上 NPU ，白白浪费了性能，纯 GPU 在那算，跑激活参数越大的模型越吃亏，72B 就已经很慢了

112 天前

回复了 yhtbiy 创建的主题 › NVIDIA › RTX 5090,1999 美元，各位老哥准备入手嘛

https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips GB10 更有看头，跑本地大模型专用，128G 统一内存，3000 美元起售，5 月开卖，不知道国内搞到的成本要多少

112 天前

回复了 passon 创建的主题 › 美酒与美食 › 茶叶有没有科技

茶水发霉与否，不是和细菌繁殖条件相关的吗？我做的冷泡茶基本上放冰箱 2 周还能喝，保证容器干净就行。

1 2 3 4 5 6 7 8 9 10 ... 25

❮

❯