V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bobopu
V2EX  ›  程序员

有没有能够自动定时抓取某个网站数据的软件或工具?

  •  
  •   bobopu · 2014-07-14 10:19:08 +08:00 · 5856 次点击
    这是一个创建于 3786 天前的主题,其中的信息可能已经有所发展或是发生改变。
    某个网站有一些数据列表每隔几分钟就会更新一次,但都比较有规律,有没有什么办法能自动抓取这些数据去重后保存为excel格式呢?
    22 条回复    2014-07-17 22:19:34 +08:00
    ejin
        1
    ejin  
       2014-07-14 10:42:05 +08:00
    excel本身就自带这功能啊(vba)
    hging
        2
    hging  
       2014-07-14 10:48:12 +08:00
    Nokogiri
    nagato
        3
    nagato  
       2014-07-14 10:53:50 +08:00
    @hging 定时的话怎么实现?
    wgqzlj
        4
    wgqzlj  
       2014-07-14 11:08:31 +08:00
    火车头
    bobopu
        5
    bobopu  
    OP
       2014-07-14 11:12:31 +08:00
    @ejin 这个怎么弄,指教一下。
    stevenyou
        6
    stevenyou  
       2014-07-14 11:17:34 +08:00
    我用cron tab + beautifulsoup(python) 存成csv
    需要执行javascript的话用casperJS
    halfcrazy
        7
    halfcrazy  
       2014-07-14 11:26:30 +08:00
    kimonolabs
    hging
        8
    hging  
       2014-07-14 11:26:43 +08:00
    @nagato 定时如果是rails的话可以写定时任务。 其他的开源用crontab系统定时跑脚本。
    ejin
        9
    ejin  
       2014-07-14 11:58:59 +08:00
    @bobopu 你有代码基础吗
    bobopu
        10
    bobopu  
    OP
       2014-07-14 12:02:57 +08:00 via Android
    @halfcrazy 这个东西很好很强大啊,一直就想要这种在线的自动抓取工具。
    bobopu
        11
    bobopu  
    OP
       2014-07-14 12:03:14 +08:00 via Android
    @ejin 请讲一下。
    ejin
        12
    ejin  
       2014-07-14 15:06:41 +08:00
    @bobopu 就是vb/asp的语法啊,搭配xmlhttp,采网页数据很容易的
    bobopu
        13
    bobopu  
    OP
       2014-07-14 15:58:27 +08:00
    @ejin 我捣鼓一下。
    lu18887
        14
    lu18887  
       2014-07-14 18:02:06 +08:00
    这种事情最有意思了!
    tiiime
        15
    tiiime  
       2014-07-14 19:10:22 +08:00
    bobopu
        16
    bobopu  
    OP
       2014-07-14 22:29:17 +08:00
    @halfcrazy 这个有没有什么办法可以将抓取的内容自动保存呢?现在好像是抓取后不断在覆盖。。
    yangqi
        17
    yangqi  
       2014-07-14 22:30:40 +08:00   ❤️ 1
    halfcrazy
        18
    halfcrazy  
       2014-07-14 23:27:30 +08:00
    @bobopu 你可以在设置的地方设置一下定时抓取,然后你本地也定时抓取并存储就好。输出的格式反正都很好解析的,
    bobopu
        19
    bobopu  
    OP
       2014-07-17 15:52:13 +08:00
    @halfcrazy 我想用的输出的csv格式,用excel远程调用后也会随着每次的刷新的覆盖之前的数据,有没有什么可以追加保存的办法?
    bobopu
        20
    bobopu  
    OP
       2014-07-17 15:53:52 +08:00
    @ejin 请问excel从web获取数据后有没有什么办法追加保存呢,目前都是每次刷新覆盖了之前的数据了。
    ejin
        21
    ejin  
       2014-07-17 22:15:48 +08:00
    @bobopu 自己拼接下咯
    bobopu
        22
    bobopu  
    OP
       2014-07-17 22:19:34 +08:00
    @ejin 花钱找了个人给我编了套vba过两天给我,可以实现自动追加。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2745 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 06:58 · PVG 14:58 · LAX 22:58 · JFK 01:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.