V2EX › wxf666 的所有回复 › 第 6 页 / 共 34 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 2 3 4 5 6 7 8 9 10 11 ... 34

❮

❯

283 天前

回复了 bronyakaka 创建的主题 › 分享创造 › 写了个 webp 转 jpg 的小工具

@augustheart #10 那为啥不搞 1000 、10000 并发呢？

挑 100 这个数字，是有什么考究吗？ CPU 100 核？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

283 天前

回复了 bronyakaka 创建的主题 › 分享创造 › 写了个 webp 转 jpg 的小工具

转换图片，不是 CPU 密集型应用吗？ 100 并发转换，有啥意义吗？

另外，webp 效率，不是比 jpg 好得多吗？兼容性也不错吧。。

win8.1 能运行吗？我试了下，好像不支持？

284 天前

回复了 abcbuzhiming 创建的主题 › 程序员 › 这种需要回顾过去数据的算法问题是不是回溯问题，如何优化速度？

@abcbuzhiming #6

1. 存历史 A1 、……、C618 数据，有啥不好吗？

- 数据太大？

每期 1KB ，1W 期也才 10MB 呀？

- 计算太慢？

存历史后，每期只需 30 毫秒（ Q15X 节省 3.6W 次计算，C618 节省 4442W 次计算），

1W 期只需 5 分钟呀？

- 附带 MySQL 太麻烦？

带个 SQLite 单文件呗？这货才 1MB 。。

2. Everything 也是 for 循环遍历 file list 吧？

否则《正则》搜索全部文件，能怎么《特化场景》呢？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

284 天前

回复了 abcbuzhiming 创建的主题 › 程序员 › 这种需要回顾过去数据的算法问题是不是回溯问题，如何优化速度？

1. 以前算过的数据，为何要再算呢？

比如 Q15X ，直接拿上一期的 P15X 不行吗？为啥还要再遍历 96 次？

再如 C618 ，之前 617 次的 A1 ，……，Q15X ，不是算出来了吗？直接用可以吗？

2. 循环搜字符串 7W 次，就耗时 50 毫秒，是不是有点慢了？

比如 Everything 正则搜几百万文件，基本都是按个键下去，就搜出来有多少结果了？

3. 感觉你这堆描述，有耐心看的人不多。

你若放代码（关键算法你换个等慢的） + 数据，问为啥这么慢，应该会有大佬帮你调调看看？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

295 天前

回复了 ncisoft 创建的主题 › Java › 对垃圾回收器的改进方案

@ncisoft #48 经你改造的 Idea 、PyCharm 社区版，预计有多少提升呢？

内存少 20% 占用，性能提升 20%？

还是有其他什么表现呢？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

296 天前

回复了 ncisoft 创建的主题 › Java › 对垃圾回收器的改进方案

Idea 、Pycharm 社区版，是开源的吗？

经你改造后，预计能提速多少，减少内存占用多少呢？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

296 天前

回复了 rocky55 创建的主题 › 分享创造 › 从 PDF 和图片提取表格的小工具

@rocky55 #2 请教一下，这种训练是自动的吗？

还是需要自己标注每个 PDF/图片中的正确结果啥的？

大概要训练多少 PDF/图片呢？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

297 天前

回复了 Zoyo94 创建的主题 › Windows › 运行三百多天的 Win11

有内存泄露吗？

比如说，关掉所有程序后，占多少内存？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

299 天前

回复了 drymonfidelia 创建的主题 › 程序员 › 给大家见识一下日本的逆天 IT 水平

@w88975 #33 一个人调了，其他所有人也转换视角？

https://i.imgur.com/krir4IG.png https://i.imgur.com/krir4IG.png

299 天前

回复了 sky9401 创建的主题 › Android › 晴天霹雳，一加 8 系统崩溃自动恢复出厂，所有的资料都没了

一加手机的系统，不是近乎原生吗？

应该比 MIUI 等更稳定呀？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

300 天前

回复了 kydin 创建的主题 › 程序员 › 怎么在嵌入式中实现一个 web 页面？

几百 KB 的 BusyBox ，有内嵌一个小型服务器 httpd 呀？

可以运行 CGI 脚本，或者为 URL 后缀指定解释器（如 php ）？

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

301 天前

回复了 vincent7245 创建的主题 › Linux › 给三年前的极致轻薄本安装 Debian 续命

开机要 3GB 内存？赶上 Win11 了。。

我用 Deepin （ Debian 换皮），开机也才 1GB 出头呀。。

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

301 天前

回复了 gosky 创建的主题 › PostgreSQL › 小系统数据库 mysql 和 postgresql 比对和 wordpress 数据库技术选型

WordPress 官方，前两年不是说，对于中小型网站和博客，SQLite 似乎挺完美吗？

只要你并发写不大（支持一写多读并发），应该没啥事？

链接： https://make.wordpress.org/core/2022/09/12/lets-make-wordpress-officially-support-sqlite/

https://i.imgur.com/F29pmQ6.png https://i.imgur.com/F29pmQ6.png

302 天前

回复了 wueryi 创建的主题 › Elasticsearch › 请教个 es 向量查询的问题

请教一下，这是一种更高级的全文搜索吗？

比如，要是用到 V2EX 的搜索里，就能以自然语言形式，搜出更匹配的帖子/回复来，而不是关键词/近义词匹配而已？

某个字符串的 1024 纬度数据，是咋来的呢？每个纬度，是代表某个方向上的相关程度吗？（如动物/人类/编程/工地/……）

312 天前

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

@Keuin #20 写入量还是太大了。我手撸，只写一遍，都觉得大。。

换成算 SHA-1 ，最差情况，只需要写 203e8 * (20 + 6 该行偏移量) / 2 ^ 30 = 492 GB 即可。

当然，自己写肯定不如久经考验的工具成熟稳定，第一次花的时间精力也多。。

@heguangyu5 #21 C/C++ 新人，看了下排行前三的 HashTable ，感觉每行只需 11 字节即可？

6 字节原始文件偏移量 + 5 字节与原始位置的距离（ unordered_dense ）或下一节点数组下标（ emhash ）？

狠一点儿，ceil(log2(6.20 * 2^40)) - 1 + ceil(log2(203e8)) = 77 bits / 行？总共需 182 GB 即可？

剩下几字节，你用来存啥了呢。。

312 天前

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

@Keuin #18 你是说，类似这样吗？

awk '{print NR" "$0}' in.txt | sort -u -k2 | sort -n | cut -d' ' -f 2-

感觉写入量翻倍。。而且很难扩展到（可能跨多行的） csv ？

@heguangyu5 #13

1. 平均下来，每行花费 14.4 字节内存，肯定没存原字符串。

hash 冲突时，你要回源文件，具体比较两行吗？那随机读会不会很多。。

换句话说，随机生成 1E 行，又把这 1E 行打乱，追加到原文件。dedup-use-more-mem 会随机读 1E 次吗？

2. dedup-use-less-mem 需要额外写多大文件呢？有多少次随机读写呢？这个支持流式读源文件吗？

313 天前

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

@Keuin #11 原帖还要求，保持文本原有顺序诶。。

分块归并排序确实好用，我在原帖也手撸了一个，i5-8250U 每分钟能排序 25 GB 。但读写量还是太大了。。

换成只写入 MD5/SHA-1 值的话，读写量能减少 95%。代价就是有极小概率会哈希冲突。。

但也能通过回原文件比较两行解决。代价就是可能会有不少的随机读，和重复行数量成正比。。

313 天前

回复了 heguangyu5 创建的主题 › 程序员 › [单个 6.2TB 203 亿行的超大 csv 文件保持顺序的情况下去重]的两个解决方案

有点感兴趣，问一下楼主：

1. 楼主硬盘读写速度多少？

2. 可以指定限制多少内存完成吗？

3. 有不同的两行，恰好 hash 相同，会出问题吗？

4. 除顺序读一次原文件外，还需要额外读写多少文件吗？

5. 能轻而易举改造成，针对 CSV 文件（可能有字符串跨多行），且现有成绩影响不大，是吗？

1 ... 2 3 4 5 6 7 8 9 10 11 ... 34

❮

❯