V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
blankmiss
V2EX  ›  NAS

Zlib 的数据量怎么这么少,才 31T 的书籍?

  •  
  •   blankmiss · 2022-11-06 18:16:58 +08:00 · 21994 次点击
    这是一个创建于 730 天前的主题,其中的信息可能已经有所发展或是发生改变。

    两个 30T 的大盘机分开下载的

    image.png

    不知道是不是 qbittorrent 的版本 bug 还是我种子下载太多(也有可能是下载速度或者上传速度太快了?) 一个页面有数据

    image89012c972bd283b9.png

    一个页面直接是空空荡荡

    image2df397a75249d1cb.png

    服务器探针显示正在下载 速度还不错,也没日志(过一段时间就会显示无法访问 qBittorrent 客户端)

    重启服务就能好一会儿 ,不知道是什么问题

    116 条回复    2022-12-24 15:44:32 +08:00
    1  2  
    placeholder
        1
    placeholder  
       2022-11-06 18:43:10 +08:00
    反正看不完,下着玩玩得了
    blankmiss
        2
    blankmiss  
    OP
       2022-11-06 18:48:05 +08:00
    @placeholder 这个 qbt 的 bug 给我整的很不舒服
    chy
        3
    chy  
       2022-11-06 18:52:16 +08:00
    好奇这样子的大盘鸡要多少钱
    blankmiss
        4
    blankmiss  
    OP
       2022-11-06 18:53:00 +08:00
    @chy 75$/day
    opengps
        5
    opengps  
       2022-11-06 19:04:22 +08:00   ❤️ 2
    文本之类的方式,占用硬盘小很明显,我这辈子可能读不完 32T 的 txt 类内容
    lambdaq
        6
    lambdaq  
       2022-11-06 19:11:38 +08:00
    31T 这可是文本类为主的书籍啊。。。以前一个超长的网络小说也就几十 KB 。。。
    blankmiss
        7
    blankmiss  
    OP
       2022-11-06 19:23:18 +08:00
    @opengps @lambdaq 我看数据库大多数是 pdf 和 mobi epub
    luyifei
        8
    luyifei  
       2022-11-06 19:27:18 +08:00
    qbit 好像看 issue 4.4 版本的有 bug ,推荐用 4.3 版本的
    lithiumii
        9
    lithiumii  
       2022-11-06 19:43:38 +08:00 via Android
    qbittorrent 应该是遇到大种子就会容易卡
    xratzh
        10
    xratzh  
       2022-11-06 19:47:20 +08:00
    我的 1T 小盘机肯定是无缘了。PDF 本身也比较占资源
    z4oSkDNGGC2svsix
        11
    z4oSkDNGGC2svsix  
       2022-11-06 19:50:25 +08:00
    你的种子出处是? 据我所知网上有一个镜像是几年前的.
    buttenkill
        12
    buttenkill  
       2022-11-06 19:57:33 +08:00
    书籍又不是以量取胜,我大学下载了田中芳树的全集到现在一半也没看完。
    chenjies
        13
    chenjies  
       2022-11-06 20:07:51 +08:00
    有超星的种子吗?
    ltkun
        14
    ltkun  
       2022-11-06 20:12:54 +08:00 via Android   ❤️ 3
    大多数人可能目前为止还没有 31t 的空间
    lyz1990
        15
    lyz1990  
       2022-11-06 20:14:30 +08:00 via Android
    虽然 nas 还有空位,但是我还用 tor 下点会看的吧😂😂
    licoycn
        16
    licoycn  
       2022-11-06 20:20:37 +08:00
    31T 的书籍怕是这辈子都看不完吧
    wa007
        17
    wa007  
       2022-11-06 20:34:18 +08:00
    没有地方先把常见的书籍打个包,比如 100G ,这样大部分人还能有能力下载的。
    31T 不太好下载。。
    100G 估计就够我看一辈子了。
    kejinlu
        18
    kejinlu  
       2022-11-06 20:40:47 +08:00   ❤️ 1
    @licoycn 十辈子都看不完 哈哈哈
    FozillaMox
        19
    FozillaMox  
       2022-11-06 20:41:28 +08:00   ❤️ 1
    为什么要下?用 Tor 可以打开 Z-Library 本站。

    即使要下的话,下点基本的,自己认为有需要的就行了,没必要全下了。
    Helsing
        20
    Helsing  
       2022-11-06 20:43:19 +08:00 via iPhone
    一步 100 万字的小说也就 1 ~ 2M……
    Aloento
        21
    Aloento  
       2022-11-06 20:49:11 +08:00
    @FozillaMox 这大哥估计是在帮忙做种?
    blankmiss
        22
    blankmiss  
    OP
       2022-11-06 20:49:19 +08:00
    @luyifei 就是 4.3.5
    blankmiss
        23
    blankmiss  
    OP
       2022-11-06 20:49:43 +08:00
    @x02 暗网那个 z-lib
    icyalala
        24
    icyalala  
       2022-11-06 20:49:50 +08:00
    pdf, epub, mobi 占绝大多数,txt 极少。大量的扫描书,并不是纯文本格式。
    blankmiss
        25
    blankmiss  
    OP
       2022-11-06 20:50:11 +08:00
    @FozillaMox 备份一个在自己盘里面 不求人哈哈
    blankmiss
        26
    blankmiss  
    OP
       2022-11-06 20:55:06 +08:00
    @icyalala 对的还有少量图书封面和一堆无意义数据
    villivateur
        27
    villivateur  
       2022-11-06 21:37:33 +08:00 via Android
    31T……真的少吗?
    cslive
        28
    cslive  
       2022-11-06 21:44:14 +08:00
    有索引吗,我按需下载
    shyling
        29
    shyling  
       2022-11-06 21:46:34 +08:00
    31t 还少啊
    lc1450
        30
    lc1450  
       2022-11-06 21:47:16 +08:00
    @lyz1990
    @FozillaMox 求教怎么用 tor, 试过 tor Browser 和 brave 浏览器都连接不上, 科学上网也试过
    DonDonc
        31
    DonDonc  
       2022-11-06 21:50:29 +08:00
    Epub 和 mobi 的核心也是 HTML 和 CSS ,没有嵌入图片的话也不大。
    cxh116
        32
    cxh116  
       2022-11-06 21:51:39 +08:00 via Android   ❤️ 1
    @lc1450 tor 可以通过 socks 代理再连上 tor ,国内直连很难加连上。

    https://superuser.com/questions/565722/how-to-config-tor-to-use-a-http-socks-proxy
    saltedfishgames
        33
    saltedfishgames  
       2022-11-06 21:57:02 +08:00
    来迟了,现在在关联的域名上都没法下载了
    GeruzoniAnsasu
        34
    GeruzoniAnsasu  
       2022-11-06 22:00:12 +08:00
    @cxh116 tor 特征很明显,国内根本不应该去直连。

    ------

    tor 站和 tg bot 都还能用,甚至开个沙盒现场下 tor browser 都完全不占时间,我感觉好像没什么影响
    nexo
        35
    nexo  
       2022-11-06 22:09:56 +08:00
    确定吗 我记得下过一百 m 和 三百 m 的书 普通的书也有几十 m 的
    LKim
        36
    LKim  
       2022-11-06 22:24:45 +08:00
    想自己组一个索引查询工具,请问如何用他们的 sql 数据?
    Xusually
        37
    Xusually  
       2022-11-06 22:27:52 +08:00
    额。。。31TB 不少了吧,对于图书来说这个容量是海量了。
    8zip
        38
    8zip  
       2022-11-06 22:28:01 +08:00 via Android
    人类巅峰智慧的 31T 结晶
    kingpo
        39
    kingpo  
       2022-11-06 22:35:06 +08:00   ❤️ 6
    @lc1450 你如果有个域名的话可以用 cloudflare 自建一个镜像站,几分钟搞定,参看这
    https://ttzz.eu.org/posts/2022-10-18-build-zlibrary-mirror/
    blankmiss
        40
    blankmiss  
    OP
       2022-11-06 22:42:15 +08:00
    @villivateur 之前我看到网友们说破 PB 了
    blankmiss
        41
    blankmiss  
    OP
       2022-11-06 22:43:00 +08:00
    @cslive 有的不过都是种子 有一个种子是 sql 文件 有 isbn
    blankmiss
        42
    blankmiss  
    OP
       2022-11-06 22:43:30 +08:00
    @LKim 导入 mysql 就行了
    blankmiss
        43
    blankmiss  
    OP
       2022-11-06 22:46:45 +08:00
    @GeruzoniAnsasu 不过 tgbot 的文件不能超过 50M 想推大文件书就得去 web,或者用自建的 tg bot api 了
    wangdefu
        44
    wangdefu  
       2022-11-06 22:48:26 +08:00
    如果提供中文书籍下载,我愿意保存一份
    ihuotui
        45
    ihuotui  
       2022-11-06 23:03:32 +08:00
    有没有种子分享下,想存一份
    littlewing
        46
    littlewing  
       2022-11-06 23:35:21 +08:00
    @opengps 很多都是扫描 pdf 啊,特别是中文的
    blankmiss
        47
    blankmiss  
    OP
       2022-11-06 23:37:02 +08:00
    Foxkeh
        48
    Foxkeh  
       2022-11-07 01:06:22 +08:00 via Android
    用美国服务器下载可能有版权投诉风险,bt 下载 IP 会被记录的
    ericgui
        49
    ericgui  
       2022-11-07 01:34:29 +08:00
    @blankmiss 有钱
    suguo210
        50
    suguo210  
       2022-11-07 01:40:24 +08:00
    你的网速太慢了,我昨晚用 aria2 搞了,下载速度在 400-500m
    kokutou
        51
    kokutou  
       2022-11-07 02:55:47 +08:00 via Android
    美国服务器可以下载 bt ?
    不会警告吗。。
    aulayli
        52
    aulayli  
       2022-11-07 03:53:28 +08:00
    31T 不少了
    msg7086
        53
    msg7086  
       2022-11-07 06:02:37 +08:00
    @kokutou 版权方会发律师函。但是这里的「版权」方是 zlib ,他们不会发。
    leonme
        54
    leonme  
       2022-11-07 08:02:47 +08:00 via iPhone
    @FozillaMox tor 可以打开,但是貌似不能下载了,显示在维护
    lyz1990
        55
    lyz1990  
       2022-11-07 08:19:18 +08:00 via Android
    @lc1450 代理一下就 ok 啦
    wangdefu
        56
    wangdefu  
       2022-11-07 08:33:49 +08:00
    tor 可以下载
    但是主页会提示有问题 他们在处理
    huangmingyou
        57
    huangmingyou  
       2022-11-07 08:57:49 +08:00
    书买了就是看了,下了也等于看了。
    php01
        58
    php01  
       2022-11-07 09:01:04 +08:00   ❤️ 8
    哪位老哥下完后,写个程序整理一下,留下中文书籍,再做个种出来,大大的功德
    HugoChao
        59
    HugoChao  
       2022-11-07 09:05:32 +08:00
    我记得我小学时候下的哈利波特全集丢 58 圆的老人机里看 才几兆
    xz410236056
        60
    xz410236056  
       2022-11-07 09:06:02 +08:00
    最近都的一本 epub 格式的书,带各种注释链接,22 万字 791kb 。按这个架势 31TB 得 925779929 万字。
    wydinhk
        61
    wydinhk  
       2022-11-07 09:15:32 +08:00
    @xz410236056 zlib 上几百 M 的 PDF 多的是,以及大量的读秀扫描版中文书,一个几十 M 。
    leonme
        62
    leonme  
       2022-11-07 09:16:30 +08:00 via iPhone
    @wangdefu 同样的情况,能进网站,但没法下载
    Seayon
        63
    Seayon  
       2022-11-07 09:23:36 +08:00
    @kingpo 源站不是被封了吗?这个还能用吗
    Patrick1
        64
    Patrick1  
       2022-11-07 09:24:18 +08:00
    我收藏的网站被查封了,请问最新的网站是什么啊
    kingpo
        65
    kingpo  
       2022-11-07 09:27:39 +08:00   ❤️ 1
    @Seayon 可以
    dnzh1wei
        66
    dnzh1wei  
       2022-11-07 09:34:22 +08:00
    我说我前段时间还能访问这个网站,大佬为啥要备份这个,刚去访问了下,this website has been seized.这是什么情况,被封掉了么
    xavierskip
        67
    xavierskip  
       2022-11-07 09:40:55 +08:00
    只能说明大多数书籍的都是不扫描版 PDF 文件。
    huangzhe8263
        68
    huangzhe8263  
       2022-11-07 09:52:01 +08:00
    @dnzh1wei #66

    11 月 4 日消息,据奇点财经,Z-Library 的域名日前被美国邮政检查局查封。对于 Z-Library 来说,因为版权问题,多年来已经被多次查封,有据可查的大规模查封就在 2015 年、2107 年各有一次了。Z-Library 自称是“全球最大的数字图书馆”以及“全球最大的科学文章存储库”,截至发稿时,页面上显示他们已经收录了 11,637,122 本书籍及 84,837,643 篇文章。

    src: https://www.niaogebiji.com/pc/bulletin/detail?id=78066

    "Z-Library 是 "全球最大的数字图书馆", 提供免费的数字出版物下载服务.今天开始部分 Z-Library 用户最近报告称网站服务一直处于时断时续状态, 直至两小时前完全不可用. 在 Reddit 上, 有人贴出来自美国 ICE - 国土安全局的公告, 称域名由于侵犯版权罪已被查收. 当前 Z-Library 全部域名均无法访问, 也无法证实服务暂停的具体原因."

    src: https://www.solidot.org/story?sid=73263
    lzyliangzheyu
        69
    lzyliangzheyu  
       2022-11-07 10:02:07 +08:00
    还以为是那个第三方库 zlib 呢
    pkoukk
        70
    pkoukk  
       2022-11-07 10:05:29 +08:00
    除非有很多插图,否则 epub 也没比 txt 大太多
    千万字的书也就是十几二十兆
    dbow
        71
    dbow  
       2022-11-07 10:14:19 +08:00
    qbittorrent 可以挂 socks5 代理,而且只需要 tracker 挂代理就行,流量走本地, 速度基本跑满带宽, 我觉得大盘鸡 75 刀一天比较贵。
    dbow
        72
    dbow  
       2022-11-07 10:17:03 +08:00
    adsl 小水管慢慢下载,一个月 31T 没问题。
    czman
        73
    czman  
       2022-11-07 10:20:57 +08:00
    @opengps 只是可能吗哈哈?
    treizeor
        74
    treizeor  
       2022-11-07 10:26:07 +08:00
    好像这 31T 都是 epub 的
    Dorcoin
        75
    Dorcoin  
       2022-11-07 10:28:25 +08:00 via Android
    @Helsing 确实,31t 大致就是 3 万多本百万字数的书籍了,一般而言 8 万字是最低,20 - 35 万是大多数,国内外的差别不大,都是这个字数标准。
    换算成具体数量:31t 应该可以相当于 10 万本数量的书籍,依据国内 08 年的《公共图书馆建设标准》来说国内最低图书馆藏书量要达到 3 万册,其中还包括了一般需要 3 - 5 本的复本,因此 31t 相当于一座中大型图书馆了。
    当然国内最大图书馆---中国国家图书馆,数字馆藏应该有近 2000t 的存量。
    chengkai1853
        76
    chengkai1853  
       2022-11-07 10:29:36 +08:00
    以下是维基内容( 160T ):

    Z-Library 容许用户自行上传书籍[19],并设立了捐款渠道予人捐款[20]。在网站上用户可免费下载书籍和期刊[20]。用户可在不用注册的情况下下载资源,但下载数量和速度都会较注册者为低。注册者可在捐款后享有更多的功能,而且下载数量和速度都会较没捐款时放宽[21]。

    Z-library 也被称为 B-ok.org 和 Bookfi 。截至 2018 年,该图书馆已跟创世纪图书馆整合,并拥有 1lib.eub-ok.ccbooksc.orgbook4you.orgbok.orgbookos-z1.orgbooksc.xyz 等镜像网站[22]。根据欧盟委员会的说法,该一网站是在中国大陆营运的[23]:30 ,该项目的创建者声称,档案的伺服器位于美国、巴拿马、俄罗斯、德国、芬兰、马来西亚、卢森堡等地,总共存储了过 160TB 的资料[24]。
    anzu
        77
    anzu  
       2022-11-07 10:57:12 +08:00
    不是有数据库吗,count 一下就知道各类型有多少本了
    pjian
        78
    pjian  
       2022-11-07 11:01:08 +08:00
    31T 应该只是一段时间内新增的书籍
    junyee
        79
    junyee  
       2022-11-07 12:51:14 +08:00
    @opengps
    别说 31T, 阅完 31G 的 txt 文本 大多数人都有难度.
    假设阅读中文文章 50 字 /秒, 默认文本格式 utf-8, 一天 24 小时能看 50*3600*24=432W 字.
    看完 31G 需要: 32*1024*1024*1024/(4320000) = 7953 天(约 21 年+)
    31T 再乘以 1024 即是.
    dongpeng121
        80
    dongpeng121  
       2022-11-07 12:54:07 +08:00 via iPhone
    还有很多书有很多版本,重复的很多
    junyee
        81
    junyee  
       2022-11-07 12:54:28 +08:00
    大意, 嘴飘说错忘除以 3 了.
    即使如此 一辈子能看完 31G 文本也绝非易事.
    blankmiss
        82
    blankmiss  
    OP
       2022-11-07 13:11:08 +08:00
    @suguo210 有的种子速度快 有的都 0 人做种 而且我感觉 Qbt 有 BUG
    logic159
        83
    logic159  
       2022-11-07 13:34:43 +08:00
    大部分人也没想过能看完这么多,之所以想下载回来,是怕哪天找书时全网都找不到了~
    nah
        84
    nah  
       2022-11-07 13:43:11 +08:00
    @placeholder 看个题目就当作看完了。题目合起来有 1G 吗?
    zerone0086
        85
    zerone0086  
       2022-11-07 13:47:35 +08:00
    你们用什么软件打开的啊?我 iphone 自带图书打不开呢?
    Erriicck
        86
    Erriicck  
       2022-11-07 14:09:17 +08:00
    @opengps 把可能去掉
    VYSE
        87
    VYSE  
       2022-11-07 14:12:00 +08:00
    @blankmiss #4 长期做 seedbox 么? 两台一年 5 万刀了
    dncba
        88
    dncba  
       2022-11-07 15:33:55 +08:00
    dncba
        89
    dncba  
       2022-11-07 15:37:53 +08:00
    发现了一门生意,之前在淘宝上根据 ISBN 编号买过书,一本 3 元。可以搞个服务器把数据搞下来后搞个社工机器人卖书。
    surfin9
        90
    surfin9  
       2022-11-07 15:45:19 +08:00
    古人说的读书破万卷,每本书算 10 万字吧,单按照文字字数来说,电子化后,也不到 2 个 G.....
    logic159
        91
    logic159  
       2022-11-07 15:56:21 +08:00
    古人的破万卷是竹简,其实并没有多少字。。
    LavaC
        92
    LavaC  
       2022-11-07 16:08:40 +08:00
    不知道如果给无尽的寿命,一个人得多久才能看完这些书。
    kernelpanic
        93
    kernelpanic  
       2022-11-07 16:19:14 +08:00
    下完了,总共大概 2000 万本,中文 20 万本左右..
    dbow
        94
    dbow  
       2022-11-07 16:44:52 +08:00
    @kernelpanic #93 怎么这么快,分享一下方案
    blankmiss
        95
    blankmiss  
    OP
       2022-11-07 16:47:35 +08:00
    @kernelpanic 确实 我的 qbt 已经卡死了 这东西应该是有点 bug
    blankmiss
        96
    blankmiss  
    OP
       2022-11-07 16:49:11 +08:00
    @dncba 哈哈我是自己用 其实只要有数据是开源复刻一个 z-lib 只要有 isbn 编号 可以直接去爬取 数据库缺失的 封面 简介 作者 目录 这些信息
    imldy
        97
    imldy  
       2022-11-07 16:55:08 +08:00
    @kingpo #39 可是源站被查封了,镜像站相当于反代,也不行了吧
    placeholder
        98
    placeholder  
       2022-11-07 19:55:15 +08:00
    @nah 不知道啊,我没合过,你合过吗?
    wxf666
        99
    wxf666  
       2022-11-08 05:01:46 +08:00
    @kernelpanic 我只下了 sql 文件

    统计了下,总共不到 1200W 行数据,中文才 13 万本左右

    是不是数据库缺失很多啊?@blankmiss ,有啥办法补全吗?
    blankmiss
        100
    blankmiss  
    OP
       2022-11-08 09:02:13 +08:00
    @wxf666 哈哈 所以我说数据量少
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   996 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 21:21 · PVG 05:21 · LAX 13:21 · JFK 16:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.