现在大家爬虫爬淘宝都是用什么办法能全站大量爬取啊?给个思路吧?能用手机 app 端爬取吗?

目前在搞电商爬虫,
京东还行,还是能爬取的,一台机使用 scrapy 开个四个假的分布式窗口(配置差,不敢开太多,怕一觉起来电脑卡死),ip 被 ban 也不是很严重,除了一些页面需要使用 selenium 抓取之外(图书页面要下滑加载 js),其他的页面都可以直接抓取,不过如果中间掺杂需要 selenium 的页面会很慢,12 小时总共能爬 8w 页面(因为 scrapy 回调函数),一台机器能爬 3w 数据算多的了..

但是淘宝就恶心到我了........ 反爬很严重,用 selenium 爬几下就 gg, cookies 之后也用不了,除非用新的,再说我也没有那么多账号弄 cookies

根据用户行为来判断是否爬虫的吗?

还是查找原始 ip 来 ban 掉 ip?高匿 ip 不行吗?

那么能使用 app 加 mitmdump 拦截抓取数据保存,还是通过 pc 端加自制脚本(非 selenium)模拟用户点击+mitmweb 拦截数据?

Selenium

页面

爬

Scrapy

49 条回复 • 2020-07-10 12:02:28 +08:00

VDimos

2019-06-22 13:24:16 +08:00 via Android

为啥说的不让你爬错了一样，于情于理不让你爬都没问题

shanlan

2019-06-22 13:26:15 +08:00

未经同意，擅自爬取数据违法。

o00o

2019-06-22 13:27:41 +08:00 via Android

PC 端连正常用户都受影响了，更何况爬虫了

z1421012325

2019-06-22 13:27:49 +08:00

@VDimos 我也知道啊,但是学习不商用,而且也不是要全部爬取,只要能运行成功一天就好了

z1421012325

2019-06-22 13:29:29 +08:00

@o00o app 端有没有试过?,我这边弄不了,机器开虚拟机配置不行,淘宝都打不开...

daquandiao2

2019-06-22 13:29:56 +08:00

你最后不都想到两种办法了怎么不试试

z1421012325

2019-06-22 13:30:31 +08:00

而且我不一定全站爬取,只要热门商品前面的就行,大概是每个商品爬个 5 60 页就爬下一个

z1421012325

2019-06-22 13:31:02 +08:00

@shanlan 学习不商用,试试爬爬,加强技能

q397064399

2019-06-22 13:32:47 +08:00

@shanlan #2 敞开大门做生意，换个姿势就不让插了？真的是搞笑，哪天说不定我浏览器打开一下淘宝，就被定义为爬虫把我给抓走了，口袋罪何患无辞

z1421012325

2019-06-22 13:33:07 +08:00

@daquandiao2 都算是构想,第一种我机器配置不行,在模拟器中开淘宝直接卡死,第二种还在想怎么弄,这不来 v2 上看看大家有什么思路不?

Baboonowen

2019-06-22 13:33:33 +08:00

虽然我也写爬虫，但我不会觉得人家不让你爬错了……

z1421012325

2019-06-22 13:40:30 +08:00

@Baboonowen 也对,但是爬虫就是要反反爬吧

sobigfish

2019-06-22 13:57:53 +08:00

讨厌这些害的我正常浏览都要登录的爬虫，但同时觉得，电商网站就应该明码实价，提供 API 给出价格都是应该的

zxcslove

2019-06-22 14:04:15 +08:00

@q397064399 根子就是不想公开竞争，弄羊毛忽悠用户，不好忽悠的用户都去死

zxcslove

2019-06-22 14:11:31 +08:00

@shanlan 相当于规定销售商品应当明码标价的情况下，未按商场指定方式看价格违法

Jirajine

2019-06-22 14:17:08 +08:00 via Android

mitm 可以试试吧，用大量客户端+自动操作脚本。我就是用这玩意配合自动操作脚本爬取一些 flash 内容（逆向 ActionScript 太痛苦）

cabing

2019-06-22 14:48:20 +08:00

我以前觉得还行吧~~，分析页面 js，ip 可以买个代理啥的。

以前公司有个店铺卖书的，买个工具需要花钱，为了省钱，就爬过自己店铺的数据，然后再整理和分析。。

vzev

2019-06-22 15:22:54 +08:00

"但是淘宝就恶心到我了" 淘宝肯定也在想你恶心到它了,哈哈！

kppwp

2019-06-22 15:22:55 +08:00 via iPhone

是通过用户行为分析的，一般还是用大量 ip 代理去解决问题。

mrcn

2019-06-22 16:10:25 +08:00 via Android

淘宝天猫…我正常用户都用不了…

akira

2019-06-22 16:34:22 +08:00

有海量 ip/账号肯定可以爬

z1421012325

2019-06-22 17:27:00 +08:00

@akira ip 倒是没啥问题,问题是账号,再说了如果被发现是爬虫,那么这个账号短时间内不能使用了,还有貌似每天都会让你登陆一次获取 cookies..

www6688w

2019-06-22 17:35:08 +08:00

用谷歌插件模拟真实用户采集试试呢？

compiler

2019-06-22 17:37:12 +08:00

我理解淘宝有反爬团队，干不过就加入，哈哈哈

turi

2019-06-22 18:24:29 +08:00

淘宝有自动拨号 vps，每次连上都是不同 ip.

hgjian

2019-06-22 18:39:01 +08:00 via Android

@turi 能提供一下搜索关键词吗？没找到啊

turi

2019-06-22 19:02:54 +08:00

@hgjian ip 混播
试试这个，去年还有拨号的 vps,今年就清理干净了。

turi

2019-06-22 19:04:47 +08:00

@hgjian

这个关键词，还有的
adsl ip

z1421012325

2019-06-22 19:06:50 +08:00

@www6688w 真实模式也没用啊,根据用户习惯分析就能轻松反爬,毕竟一个人不可能一天之内浏览这么多页面的

lonelygo

2019-06-22 19:13:40 +08:00

#24 @compiler 好办法，打入敌人内部。

UFc8704I4Bv63gy2

2019-06-22 20:00:08 +08:00 via Android

你们要爬什么我帮你们爬，一分钱一个商品可好？

minami

2019-06-22 20:25:18 +08:00

淘宝那个反爬策略，我一正常用户都觉得恶心，多开几个商品页面就开始弹东西了

jiejiss

2019-06-22 20:30:46 +08:00

把下滑、点击之类的，自己先实际操作七八遍，让程序 100%记录，然后重放出来
包括等待页面加载的时候鼠标的移动，或者是拖动浏览器的右侧滚动条，也要录
每两次操作之间的间隔建议也是基数+随机数

jiejiss

2019-06-22 20:31:09 +08:00

或者干脆接入打码平台

zdb1115

2019-06-22 21:24:51 +08:00 via Android

31 楼的可以爬一个品类的吗？

opengps

2019-06-22 21:44:54 +08:00 via Android

爬虫本不应该是被提倡的，毕竟原创成分太少，影响真原创方的负载能力。

DaWWW

2019-06-22 22:34:15 +08:00

动态 ip，控制访问速度，淘宝反爬很正常啊

dewi

2019-06-22 23:54:45 +08:00 via iPhone

TB 的话可以试试淘客的 api，或者直接爬大淘客上的，但是这个方法仅适用于有返利的宝贝，无返利的宝贝目前无解。。。

lovesky

2019-06-23 00:00:35 +08:00 via Android

selenium 是能被检测到的，你们要爬什么我帮你们爬，一分钱一个商品可好？

hgjian

2019-06-23 00:20:23 +08:00 via Android

@turi 感谢提供

bigbigeggs

2019-06-23 00:22:26 +08:00

这个爬取好像市场价，两毛一条。
selenium 好像不行，会有下拉框。
可以试试 ip，那种有真实用户下单的 ip 段

kingfalse

2019-06-23 04:08:13 +08:00 via Android

周瑜打黄盖，常威咬来福。

zzy578

2019-06-23 04:47:42 +08:00

我爬过一个店铺的，在 network 里找对数据的请求，分析 json 拿数据
这个 url 没有反爬，把 cookie 加上就可以

z1421012325

2019-06-23 11:17:36 +08:00

@zzy578 详情页没啥反爬,只是列表页不好弄

UFc8704I4Bv63gy2

2019-06-23 23:11:08 +08:00 via Android

@zdb1115 当然可以

Jaho

2019-06-24 09:05:03 +08:00

要付费爬算我一个[手动狗头]

yebo777

2019-06-24 09:16:16 +08:00

淘宝现在都不能正常使用，动不动就要验证

fank99

2019-06-24 10:45:26 +08:00

淘宝大众点评都是出了名的难爬。。没发现百度都说"由于该网站的 robots.txt 文件存在限制指令（限制搜索引擎抓取），系统无法提供该页面的内容描述"

gxlonline

2020-07-10 12:02:28 +08:00

需要挂上代理 IP，推荐：酷鱼代理 IP