baozaodexiaomila 最近的时间轴更新
baozaodexiaomila

baozaodexiaomila

V2EX 第 670690 号会员,加入于 2024-01-10 15:38:20 +08:00
baozaodexiaomila 最近回复了
10 天前
回复了 dbow 创建的主题 职场话题 搞爬虫的去面试了一下被爬的大厂
可是大厂不是也在招爬虫吗🤣
10 天前
回复了 bwijn 创建的主题 Python scrapy 的 item 队列把内存挤爆
理论上 pipeline 这里只做数据存储过程,其他业务相关的东西不应该对抓取的结果进行处理,先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中,这里作为原始数据,后续的操作应当在 这个数据库上搞一个业务数据库来进行处理,就算不另外搞一个数据库,那么业务操作也应该开启新的进程去单独处理数据
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1386 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 17:21 · PVG 01:21 · LAX 09:21 · JFK 12:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.