V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 243 页 / 共 338 页
回复总数  6760
1 ... 239  240  241  242  243  244  245  246  247  248 ... 338  
2014-11-25 12:30:53 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 因为是人工的
2014-11-25 11:54:20 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 以前是PM配的啊,现在把 wiki. 当做死链处理掉了
2014-11-24 15:52:28 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 现在对 wiki.moegirl.org 停止DNS解析了吗。。
2014-11-23 22:30:05 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 我觉得没有必要,pyspider是人工写模板的,而不是说页面上所有的链接都需要去检测一次是否在库中。实际上只有列表页有这样的检测。

再加上需要做按照时间判断是否重抓取的检测,bloomfilter 是不够的,还是得查库。
2014-11-23 10:35:32 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 其实是反过来,原来是被人工强制设置为了 wiki.moegirl.org 然后让人把规则下了。现在是真的抓到了 wiki.moegirl.org ...
2014-11-23 10:06:25 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@benjiam 本来就是靠 taskid,taskid是定长的,来区别的啊
@fly51fly 你什么环境?
2014-11-23 00:10:49 +08:00
回复了 hpan 创建的主题 程序员 ppurl.com 打不开了
人家早说要关了,强行今天
2014-11-20 22:39:28 +08:00
回复了 binux 创建的主题 分享创造 也来一发,豆瓣害羞组读图版
@wh1100717 我就试试我的爬虫,一个晚上做的,我也懒得完善
2014-11-20 16:44:42 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 好过吗?
2014-11-20 14:32:15 +08:00
回复了 binux 创建的主题 分享创造 再次分享 pyspider 爬虫框架
@crossmaya 我没有windows,前面有人报过issue,然后可以了啊
2014-11-19 17:32:09 +08:00
回复了 ccbikai 创建的主题 程序员 大家都是怎么处理爬虫代理问题的?
@ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
2014-11-19 11:15:07 +08:00
回复了 Livid 创建的主题 程序员 Code Review on Stack Exchange
这个完全没有为 review 做过优化啊,github 代码行内评论的什么,不一定最好,至少比论坛看起来舒服。
2014-11-19 09:59:20 +08:00
回复了 baskice 创建的主题 问与答 百度搜索为什么会对一个被墙掉的网址不离不弃 3 年不删?
@baskice 原来好过一段时间吗?貌似这次不是人工规则,而是13号貌似有一次成功抓取。
1 ... 239  240  241  242  243  244  245  246  247  248 ... 338  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2280 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 48ms · UTC 01:49 · PVG 09:49 · LAX 17:49 · JFK 20:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.