V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Chigogo
V2EX  ›  问与答

编程都是为了解决问题,下载网页的特定部分并保存成 PDF 该如何做呢?

  •  
  •   Chigogo · 2015-03-09 09:46:25 +08:00 · 2049 次点击
    这是一个创建于 3549 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如我想下载某个网页
    http://www.economist.com/news/china/21645839-prime-minister-seeks-lower-expectations-economy-go-slow

    下载后,只留下正文部分。

    存储为PDF文档。

    如何编程让这个过程自动化?

    8 条回复    2015-03-10 02:22:07 +08:00
    liuhaotian
        1
    liuhaotian  
       2015-03-09 10:14:03 +08:00
    curl 获取网页,正则匹配包含正文id的容器,生成pdf。
    生成pdf可以直接用轮子。
    liuhaotian
        2
    liuhaotian  
       2015-03-09 10:15:20 +08:00
    liuhaotian
        3
    liuhaotian  
       2015-03-09 10:16:54 +08:00
    @Livid
    这个在做链接自动匹配的时候是刻意把两个相邻链接的\n转成空格的还是匹配的时候替换有问题?
    Chigogo
        4
    Chigogo  
    OP
       2015-03-09 10:37:52 +08:00
    @liuhaotian JS 可行吗?一定要学习Python吗?
    Chigogo
        5
    Chigogo  
    OP
       2015-03-09 10:39:19 +08:00
    @liuhaotian 看到了,用PHP,OK
    Draplater
        6
    Draplater  
       2015-03-09 11:10:32 +08:00
    要提取"正文部分"已经涉及到数据挖掘了。这个可以用readability完成。正文匹配并不容易,可能不台精确。
    readability有python port,例如:
    https://pypi.python.org/pypi/readability-lxml
    接下来把文字转换成pdf就是很简单的事情了,参考:
    http://www.interfaceware.com/manual/python_text_to_pdf.html
    Chigogo
        7
    Chigogo  
    OP
       2015-03-09 11:29:14 +08:00
    @Draplater 可以一步到位吗?下载某个特定的网站的正文,正文问题很好解决的。但是下载,存储PDF 这两部可以一步到位吗?
    manhere
        8
    manhere  
       2015-03-10 02:22:07 +08:00 via iPhone
    casperjs搞定一切
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5660 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 07:21 · PVG 15:21 · LAX 23:21 · JFK 02:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.