V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  samray  ›  全部回复第 7 页 / 共 8 页
回复总数  142
1  2  3  4  5  6  7  8  
2017-06-22 09:52:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@cxh116 爬取难度 淘宝>天猫>京东.淘宝的反爬实在太强.即使用上我提到的所有反反爬虫策略.半个小时内就会爬不动,即使爬取频率不高.
2017-06-22 07:05:05 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@supman 不太懂你表达的意思?
2017-06-22 07:00:53 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 我是用这个中间件来管理代理 IP 的  https://github.com/aivarsk/scrapy-proxies,随机选择代理 IP,不可用就把代理 IP 丢了. 只是还是会出现运行到一段时间之后,代理 IP 全部被丢完的情况
2017-06-22 06:56:38 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@Thoxvi README 上面已经修改,但是 V2EX 就没办法修改 :(
2017-06-21 23:22:55 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
其实最大的问题是,知道这一刻的代理可用,但是却完全没办法保证下一刻依旧可用.:(
2017-06-21 23:01:33 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
@fate0 其实主要的问题是免费的代理大部分都不能用,而且即使现在能用,下一分钟也可能不能用.并且以文本形式来存储代理 IP,在运行的时候将代理 IP 全部加载进内存,但是如果你的爬虫是长时间运行,代理应该很快用完.所以比较理想的是"动态"加载代理 IP. 即可以在运行时继续加载 IP. 个人小小的看法.也很感谢你的项目啦 :)
2017-06-21 22:56:00 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
一台 32Gb 内存的工作站,跑了三个实例.
2017-06-21 22:30:13 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
突破反爬虫策略嘛,所以就叫反反爬虫策略.见笑了.
2017-06-21 22:29:13 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
此外,graphite 的配置安装是很麻烦的事情,并且是不支持 windows  (虽说我是 Linuxer), 所以用 docker 就非常方便.我自己就在别人做好的  graphite 基础上做了些许配置的修改然后生成新的 image 适配 scrapy+graphite
2017-06-21 22:25:53 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
主要是将 scrapy.spider 的 stats 保存到 Redis (单机或者是集群),然后通过将这些数据发送给 graphite 来生成监控动态图.主要参考  https://github.com/gnemoug/distribute_crawler  的做法.只是这个项目已经没有维护了,并且是 python2,所以要自己看源码做一些适配.
2017-06-21 22:21:41 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
代理 IP 用的不是一家,是用这两位的项目  https://github.com/qiyeboy/IPProxyPool   https://github.com/qiyeboy/IPProxyPool .只是个人感觉还是不够方便,还需要自己安装和配置环境,所以我就把这两个项目做成 docker image. 然后映射  IP 出来,通过  api 获取代理 IP. 只是 image 还有点问题,所以还没有分享出来.
2017-06-21 22:18:35 +08:00
回复了 samray 创建的主题 Python 从京东"窃取"150+万条数据 (爬虫)
欢迎大家不吝指教.
2017-06-07 18:55:30 +08:00
回复了 skywalkboy 创建的主题 问与答 Java 如何生成 18 位的唯一 id
2017-05-29 13:01:04 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@msg7086 因为这个习惯是几年前养成的,习惯给 Linux 引导分一个额外的分区了.
2017-05-28 19:59:22 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
使用了 lvm 来安装 arch linux, 正如 #8 提到的那样,应该让程序做决定的还是让程序做决定吧
2017-05-28 19:57:56 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@DaraW 三星 850 evo
2017-05-28 13:47:08 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@lrvy 我觉得 /swap 拿来当虚拟内存,最重要的是要快速读写,理应是 ssd 吧
2017-05-28 13:46:09 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@BOYPT 略略看了一遍两篇博文,似乎我已经没有三个选择了,两个选择 bcache or lvmcache ,但是文章有提到 bcache 似乎会发生数据冲突,而楼上也有同学提到 bcache 会莫名其妙死机,所以感觉还是要选择 lvmcache。由软件来决定的确要比我一开始就分区决定更优
2017-05-28 13:26:04 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@caomu 交流一下理由?
2017-05-28 13:23:08 +08:00
回复了 samray 创建的主题 Linux 关于 SSD 和 HDD 双硬盘 在 Linux 分区的讨论
@blankme 虽说如此,但是略感麻烦
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3291 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 00:42 · PVG 08:42 · LAX 16:42 · JFK 19:42
Developed with CodeLauncher
♥ Do have faith in what you're doing.