V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
jakeyfly
V2EX  ›  问与答

请容我用最简单的语言描述一下应用场景,大佬们来评定下是否不适合用 scrapy

  •  
  •   jakeyfly · 2018-02-28 12:23:55 +08:00 · 967 次点击
    这是一个创建于 2489 天前的主题,其中的信息可能已经有所发展或是发生改变。

    每天早上 10 第一次爬取会获取一个列表,里面有 200 多个 ID。

    每个 ID 都可以构造 20 个跟这个 ID 有关系的请求地止,然后按一定的顺序爬取 20 个地止的数据。

    之后就是对这 200 个下 每个 ID 下的 20 个构造的 URL 进行监测有更新就爬取更新的数据(因为是以表格的形势呈现的,最上的就是最新的,只要保存上次获取的条数比如用 XPATH 的 COUNT,然后本次爬取的条数只要比上次的多,就爬取多出来的几条。)

    这 200 个爬取条目 每个都有停止更新的时间。最终还要实现,以停止更新时间为准。在这之前半小时爬一次。停止前 10 分数爬一次。过了时间就去掉这个 URL 不爬了。就是超过时间就会把 URL 去掉。最后列表为空后爬虫就停止。

    以上应用场景 是否要自己定制,scrapy 不太适合?

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2800 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:59 · PVG 19:59 · LAX 03:59 · JFK 06:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.