V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
mercury233
V2EX  ›  奇思妙想

有没有自动保存所有阅读过的网页上的内容的扩展

  •  
  •   mercury233 · 2021-08-28 19:16:05 +08:00 · 3342 次点击
    这是一个创建于 1164 天前的主题,其中的信息可能已经有所发展或是发生改变。

    虽然人是有记忆的,互联网也是有记忆的,但有些东西终究会因各种原因从互联网中消失。

    有没有自动的办法将每天看到的内容保存到自己的硬盘上呢?

    人话版本:比如有时候看过的某个网页突然 404 了,只能从采集站找到一些踪迹,web archive 爬取的频率远远不够用,想至少让自己的电脑自动记住。

    20 条回复    2021-09-10 09:09:48 +08:00
    Ehend
        1
    Ehend  
       2021-08-28 19:17:00 +08:00
    这得多大的存储空间?
    mercury233
        2
    mercury233  
    OP
       2021-08-28 19:19:59 +08:00
    @Ehend 对于大部分网站都可以只保留文字,而且只在页面停留超过一段时间的情况下才保存
    agagega
        3
    agagega  
       2021-08-28 19:23:35 +08:00 via iPhone
    想得更进一步:大部分人大部分时候访问的网页都属于少数网站,剩下的大部分网站也是用常用框架搭建的( WordPress 、Discourse 等),可以用类似 Adblock 的规则抓正文。再剩下的个人网站,几乎也可以用 Readability 搞定。
    mightofcode
        4
    mightofcode  
       2021-08-28 20:18:30 +08:00
    不仅会消失 还会被删除 lol
    chaleaoch
        5
    chaleaoch  
       2021-08-28 20:27:23 +08:00
    自动? 全部?
    手动部分的话 有网页剪辑工具.
    fox0001
        6
    fox0001  
       2021-08-28 20:34:35 +08:00 via Android
    没必要吧?
    ClericPy
        7
    ClericPy  
       2021-08-28 21:17:56 +08:00
    我能用 chrome cdp 写一个加载完毕自动保存 mhtml 或者截图, 但是感觉没啥意思...
    mscststs
        8
    mscststs  
       2021-08-28 22:30:25 +08:00
    https://chrome.google.com/webstore/detail/worldbrains-memex/abkfbakhjpmblaafnpgjppbmioombali

    之前用过这样一个插件,但是没有保存网页这么强大,只是把内容存下来方便索引,下次可以直接在地址栏搜到。

    而且挺难用的
    cmdOptionKana
        9
    cmdOptionKana  
       2021-08-29 00:52:39 +08:00 via Android
    比如浏览本页,第二次浏览时有新回复,是保留两个版本,还是只保留新版本?

    如果保留每次浏览的版本,占用空间必然爆炸;如果只保留新版,万一新版有内容被删除怎么办?
    a90120411
        10
    a90120411  
       2021-08-29 08:16:10 +08:00
    我写了一个 Chrome 插件,把历史记录保存到云端数据库,每次打开网页的时候判断是否访问过,并在页面中显示一个访问状态的标识。
    opengps
        11
    opengps  
       2021-08-29 10:44:39 +08:00
    浏览器给保存的历史访问记录其实就差不永久了。现在的网页抓取有些难度,动态加载之类的问题会让留存的数据出现各种不能离线使用的结果。存了太大,不存又有失效问题。真看到了对自己重要的数据,目前可能全靠自己复制存文档才靠谱
    moioooo
        12
    moioooo  
       2021-08-29 10:47:56 +08:00
    觉得以后可能会“消失”的网页,用简悦吧。
    chrome (或者其他浏览器)插件+ios jsbox 脚本,都可以实现剪藏离线 html,也可以发送剪藏到各种笔记软件上,也有离线稍后读功能。
    我一般是剪藏或者存离线 html 。有些软件只是存了个书签,实际内容并没有存离线,导致存了个寂寞,所以选来选去最后选了简悦。

    整体来说,需要永久保存的网页,不多。但是真消失了,就挺难受。
    sbilly
        13
    sbilly  
       2021-08-29 12:31:06 +08:00
    你有地方存吗?
    zxsczx
        14
    zxsczx  
       2021-08-29 15:58:40 +08:00
    确实 有时候想起收藏夹里的网站 点进去没了 还挺难受的
    mercury233
        15
    mercury233  
    OP
       2021-08-29 17:45:39 +08:00
    @cmdOptionKana 理想情况应该是保留差分
    vitalbo
        16
    vitalbo  
       2021-08-29 21:30:58 +08:00
    记得好早之前的 google desktop 有这个功能
    lockheart
        17
    lockheart  
       2021-08-30 01:52:26 +08:00 via iPhone   ❤️ 1
    你想要的可能是这个 https://historio.us ,自动存档浏览过的网页,付费后上限一万个。建议搭配[树形历史记录插件]( https://chrome.google.com/webstore/detail/tree-style-history/khcenbpnhbeplojhaolbpldmoppicold?hl=zh-CN)一起使用
    lockheart
        18
    lockheart  
       2021-08-30 01:58:46 +08:00 via iPhone   ❤️ 2
    本地储存开源解决方案可以使用 ArchiveBox 的自动存档浏览器历史记录功能,详细使用方法参考官方文档,功能十分强大(还可以做到在存档过程中使用 cookie,使用 adblock 去广告规则)地址:( https://github.com/ArchiveBox/ArchiveBox
    aasdkl
        19
    aasdkl  
       2021-08-30 13:59:12 +08:00
    我前段时间看到一个有点意思的(但是找不到网站了)
    是定时对用户的窗口截屏,然后搜索的时候是通过 OCR 进行搜索
    FlyingShark
        20
    FlyingShark  
       2021-09-10 09:09:48 +08:00
    @opengps chrome 历史记录只能看 3 个月啊,永久怎么做到的?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1224 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 18:16 · PVG 02:16 · LAX 10:16 · JFK 13:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.