帮别人压缩一些中文文章,可能一份就几千个字吧 用 zlib 这种库压缩,发现不会变小,反而变大了
但把文章放在 txt ,用 tar 或者 zip 压缩,反而容量小了一半 求正确压缩中文字符串的方法,谢谢
1
Tyanboot 2022-06-02 03:11:05 +08:00
先说说你是怎么操作的,是如何对比发现变大的。
比如说是不是直接比较了 len(origin_string)和 len(compressed_bytes)的大小? |
2
eason1874 2022-06-02 07:13:39 +08:00 1
#!/usr/bin/python
# coding=utf-8 import zlib text = "zlib 以字节为单位压缩,中文字符串能压缩,任何数据都能压缩,因为任何数据都能表现为字节。只有一种情况会导致压缩后变大,就是输入内容太短。但是你几千字,已经不短了,所以肯定是变小,而不是变大。你误认为变大,原因应该就是 #1 说的那样,你用 len() 比较压缩前的字符数和压缩后的字节数,错误的比较得到了错误的结果" origin_bytes = bytes(text, "UTF-8") compressed_bytes = zlib.compress(origin_bytes, 2) print("------字符数", len(text)) print("--原始字节数", len(origin_bytes)) print("压缩后字节数", len(compressed_bytes)) |
3
shuax 2022-06-02 09:25:19 +08:00
python 的 len 不是字节长度。
|
4
Latin 2022-06-02 11:03:00 +08:00
|
5
makeitwork OP |
6
makeitwork OP @eason1874 这里对比的是,
把原始文本 "zlib 以字节为单位压缩。。。"贴到到 txt ,在 mac 下面是 445 字节 把压缩后的"b'x^eP\xc1N\xc2@\x14\xfc\x95&^。。。" 贴到 txt ,在 mac 是 857 字节 这么看,压缩之后,反而更大了 虽然用 len( ) 或者 sys.getsizeof 函数来看,压缩的字节数是小一点的 |
7
eason1874 2022-06-02 19:18:35 +08:00
@makeitwork 以 b' 开头这段不是字节数据,这是字节数据的十六进制格式文本,那肯定比字节本身要大的
字节有 256 个,只有 95 个是可见字符(字母数字和标点符号),其他都是不可见字符。当你要打印出来,程序会以十六进制表示不可见字符(让它变得可见),并以 \x 开头表示格式 比如 Delete 键,它是不可见字符,本身只占 1 字节,它的十六进制是 7F 。当你以可见的十六进制打印出来,它会表现为 4 字节,也就是 \x7f 如果你把中文字符也转为十六进制,你会发现字节长度也变大了。比如 UTF8 的“中文”占 6 字节,当你转为十六进制并以\x 开头,它就变成了 24 字节 \xe4\xb8\xad\xe6\x96\x87 所以你比较错了。压缩后你应该直接存储字节,而非转十六进制文本再存,字节流转成任何可见字符编码都会导致体积变大 |
8
binaryify 2022-06-02 21:15:03 +08:00
能重复就能压缩
|