V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xoxo419
V2EX  ›  问与答

scrapy 爬虫采集多个站点,会不断增加站点,如何工程化项目呢 是把全部站点的爬虫写到一个 scrapy 还是每个站点都创建一个 scrapy 工程?

  •  
  •   xoxo419 · 20 天前 · 843 次点击
    3 条回复    2024-10-25 13:41:08 +08:00
    qfly
        1
    qfly  
       20 天前 via Android   ❤️ 1
    简单的办法是一个站点一个 然后挂在 scrapyd 下 ,crontab 触发或者外部网站都可以触发,数据进数据库不同表。 由于每个站点内容不一样 很难统一数据库表结构。如果数据类似 那么就将所有数据写入同一批表,用关键词区分不同网站。当然你能将整理出规则,那也是可行的,数据库就设计的复杂点,定义元数据,根据要求写入不同表。但如果没几个网站这样做不值得。
    EndlessMemory
        2
    EndlessMemory  
       20 天前
    每个站一个
    Pepsigold
        3
    Pepsigold  
       19 天前 via Android
    @qfly 大佬逻辑清晰,受教了!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3969 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 05:10 · PVG 13:10 · LAX 21:10 · JFK 00:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.