1
alanv2 2019-07-16 16:28:37 +08:00
制定 url 的匹配规则(正则),符合规则的 url 才爬,其他的过滤
|
2
cwjokaka 2019-07-16 16:35:07 +08:00
设置一个爬取深度
|
4
yumenoks OP @alanv2 开始是直接获取整个页面的链接,然后进行过滤,对 URL 的长度,后缀进行了过滤,
如果设置成 域名带有 WWW 的才保存的话,数量就很少.如果不这样设置的话就会跑到蜘蛛池里面去.所以有点尴尬. |
5
ClericPy 2019-07-17 00:49:19 +08:00
国外的有域名就有 ip,有 ip 就有地域吧,一大堆速度超快的 ip 转地域的,淘宝啊搜狐啊腾讯啊
遇到爬虫陷阱爬虫蜜罐或者脏数据混淆等反爬手段,没啥好办法啊,socket 连一下试试域名存在性?控制友好频率上代理池才是正路子,就算撇开是否合法,频率太高会被当作 dos 攻击告你的 |