求指路淘宝爬虫姿势

求指路

感激不尽

指路

请问

68 条回复 • 2021-10-26 18:04:30 +08:00

1

lsylsy2

2021-10-21 21:21:57 +08:00

22

你的预算和法务都很难比阿里更充足

2

x86

2021-10-21 21:29:09 +08:00

4

阿里法务部希望你在年前可以做出来，这样好冲下 KPI

3

Xusually

2021-10-21 21:41:53 +08:00 via iPhone

1

Prison Oriented Programming

4

ByZHkc3

2021-10-21 21:48:43 +08:00

这是留下犯罪证据吗

5

kiracyan

2021-10-21 21:56:48 +08:00

吃牢饭的姿势?

6

defunct9

2021-10-21 21:57:21 +08:00

慢速 + 疯狂换代理，应该可以

7

Kiriya

2021-10-21 21:58:16 +08:00

爬虫写的好，牢饭吃到饱狗🐶

8

xiadd

2021-10-21 22:04:21 +08:00

雇人人工保存🐶

9

ixuuux

2021-10-21 23:25:31 +08:00 via iPhone

方法是有的，但是你要合规那没有

10

mxT52CRuqR6o5

2021-10-21 23:28:51 +08:00 via Android

@xiadd 雇人工手爬是最法律安全的，不过还是可能被反爬虫

11

eason1874

2021-10-21 23:39:41 +08:00

《面向法律编程》

@xiadd @mxT52CRuqR6o5 人工仅仅是访问合规，还有用途合规，这才是重点。要是用来盈利的，不管怎么收集都不会是合规的

12

johnsonshu

2021-10-21 23:40:15 +08:00

借楼问一下，爬某个网站合不合法，是不是看 robots.txt 就行啊？
有没有什么判断标准啊？

13

Jooooooooo

2021-10-21 23:44:10 +08:00

预算充足就人工搞呗.

十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.

14

eason1874

2021-10-22 00:09:04 +08:00

18

@johnsonshu #12 法律很灵活，主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

1 、今日头条发家的时候肆无忌惮地采集，根据不管 robots.txt ，一律抓取放到自己网站，被百度、腾讯、微博等很多大网站和报纸起诉，一些和解转为合作，一些赔点钱。
2 、后来反过来，有个小公司采集今日头条的视频，几个主要人员被判刑和罚款，全国首例“爬虫”技术侵入计算机系统案。
3 、今日头条被微博 robots.txt 拉黑，他们还反过来起诉微博不正当竞争，2017 一审胜诉，2021 二审才改判败诉。

15

caicaiwoshishui

2021-10-22 09:21:19 +08:00 via iPhone

@eason1874 血压上来了

16

lilihangzhou

2021-10-22 09:31:52 +08:00

劝退，曾经爬过一小阵子淘宝有好货的文案，那个时候做爬虫还没什么法律风险，但是淘宝的反爬很厉害，爬了几万数据就被堵上了，

17

oneisall8955

2021-10-22 09:53:09 +08:00 via Android

对接第三方吧？

18

supuwoerc

2021-10-22 10:00:41 +08:00

预算够的话直接上人工，手动保存，这样就没政策风险了🐶

19

lzs5240

2021-10-22 10:05:58 +08:00

阿里法务部已记录在案希望你赶紧行动

20

shanghai1943

2021-10-22 10:30:52 +08:00

1

莫非这帖子是阿里法务的钓鱼贴？

21

keventseng

2021-10-22 10:48:32 +08:00

做之前，先把“张三”请来当你的法律团队~

22

feelinglucky

2021-10-22 10:57:28 +08:00

这可真刑，真有判头

23

SmiteChow

2021-10-22 11:21:39 +08:00

爬虫写得好，牢饭吃得早。

24

tenserG

2021-10-22 11:24:39 +08:00

李四教会张三爬虫,张三爬取某大型网站非法获利被警方抓获,请问李四要承担什么责任⬅.⬅

25

chevalier

2021-10-22 11:29:41 +08:00

@tenserG 李四如果有指使张三爬某大型网站的行为，则是主犯，教唆犯
如果没有类似行为，则不需要承担责任

26

lithiumii

2021-10-22 11:31:56 +08:00 via Android

预算充足找第三方，直接百度搜，那几家都做广告的，对比一下。

27

4BVL25L90W260T9U

2021-10-22 11:42:29 +08:00

6

V 站里竟然也有整楼都是玩儿梗的帖子，服了。

楼主这种情况可以说几乎没有法律风险。10 万数量不大，而且商品信息本来就是公开可访问的，不是用户隐私信息。

从某种程度上来说，像淘宝这种垄断平台，应该有把自己信息开放的义务，否则淘宝才是不正当竞争。楼上你们这些人冷嘲热讽，真不知道是什么心态，嫌国内的技术氛围太好吗？

28

thetbw

2021-10-22 11:54:04 +08:00

像喵喵折那种，我看它数据还是蛮全的，不知道是怎么实现的。他们有个浏览器插件，难道是用户当肉鸡，去爬分析用户当前浏览的数据，返回给他们服务器？

29

lazyyz

2021-10-22 12:32:47 +08:00 via Android

非常具有可邢性

30

huyu

2021-10-22 14:09:45 +08:00

我以前写过，10 万数据不是很难，就是需要时间

31

LING97

2021-10-22 14:19:23 +08:00

学 Python 的时候爬过京东，几乎没啥反爬机制。淘宝就是爬不成功，各种被检测，然后就放弃了，也不是吃这口饭的

32

gengchun

2021-10-22 14:37:25 +08:00

1

@ospider 你这说法有误导，这个最多只是没有刑事风险。

民事风险当然是有的。

> 应该有把自己信息开放的义务，否则淘宝才是不正当竞争

这个理由确实不错，真的合规的话，你应该进行预防性诉讼，先去起诉淘宝不正当竞争，赢了以后再爬。除非你这么说没有任何意义。

你唯一说对的是，这个数量不大，阿里的法务应该懒得搭理，所以法律风险可以忽略不计。

33

doecho

2021-10-22 14:40:45 +08:00

爬虫是不能爬虫的，现在的淘宝限制得很死，单刚怎么干得过阿里的反爬团队

34

huanglongtiankon

2021-10-22 14:51:32 +08:00

只是爬 10 万难度应该不大，多换几个代理就是了

35

huanglongtiankon

2021-10-22 14:56:13 +08:00

而且这么点数量根本没什么法律风险的，阿里法务才没这么闲去管你

36

whusnoopy

2021-10-22 15:05:43 +08:00

@ospider 提一些反对意见，非杠

如果是未登录状态，不用几条就会遇上各种反爬的反制手段，不太确定技术上是否好解决
如果是登录状态，超出正常使用频度的访问应该也会被反爬，甚至暂时冻结账号，不知道有没准备足够的账号

信息的确应该开放互通，爬是一种办法，而且应该是迫不得已的办法，技术圈真正该做的是推动开放互通，有可以公开的获取渠道

37

aozhou

2021-10-22 15:23:47 +08:00

1

@ospider 终于有个说实在话的，不过国内这个环境确实太差了，太偏向大资本了。

38

ColinLi

2021-10-22 15:57:07 +08:00

能爬，但是刑不刑就看运气了

39

XD2333

2021-10-22 16:00:47 +08:00

预算充足的话不如去走接口吧，淘宝的爬虫的话，反爬太疯狂了，还有风险。

40

jabari

2021-10-22 16:07:38 +08:00

@ospider #27 赞同, 但是《非法侵入计算机信息系统罪》了解一下
具有下列情形之一的程序、工具，应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”：　　
（一）具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能的；　　
（二）具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权对计算机信息系统实施控制的功能的；　　
（三）其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。

41

ncepuzs

2021-10-22 16:44:49 +08:00

阿里系的反爬都比较丧心病狂
控制频率 + 代理池或许可以
但既然预算充足，不如外包

42

jeeyong

2021-10-22 16:51:23 +08:00

2

首先...你要学习如何编译 chromedriver. 然后要去掉哪些特征. $_cdc 这种基本无所谓了现在.
其次, 你要学会如何用 js 去伪造和去掉很多特征, 有些原生函数还要重写.
举个例子, 当你用 https 协议(ios 必须是此协议, http 不行.)获取设备的地理位置信息时, 可以尝试观察他的变化特征.
而你用爬虫的时候, 是否注意到这个问题. 这个例子仅限于移动设备模式, pc 端貌似不用考虑.
然后才考虑到代理, 行为模式这类问题.
我说的很含糊..因为这个技术弄明白了很香啊....
网上也基本不会有关于第一, 第二条的相关知识. 都闷着自己做事呢.

43

ws52001

2021-10-22 16:53:02 +08:00

换代理也是没啥用的，现在淘宝是要有 ID 登录才能访问商详，10W 这个数量级虽然很小，但你想顺利爬出来还是很费劲的。。另外阿里的类张三人物还是挺多的，跟你耗个几年估计都没啥问题。

44

daimaosix

2021-10-22 16:56:00 +08:00

刑，日子总算有判头了

45

nu11ptr

2021-10-22 16:59:13 +08:00

桌面 web 端正常使用都狂跳反爬，体验吊差

46

Felldeadbird

2021-10-22 17:13:19 +08:00

用浏览器扩展写爬虫。

但是，但是，但是。你正常人只浏览不购买。风控系统会锁定你的。

所以你要解决的就是怎样伪装成人。

47

gamexg

2021-10-22 17:18:53 +08:00

@ospider #27 风险还是有的，
淘宝授权里面应该不允许机器人抓取，
然后突破淘宝反爬虫系统会涉及到入侵计算机系统罪。

48

aababc

2021-10-22 17:24:06 +08:00

大家不知道还记不记得有一个叫巧达的公司

49

jiayong2793

2021-10-22 17:49:35 +08:00

写爬虫已经进去几个了，你还敢？

50

find456789

2021-10-22 17:57:56 +08:00

10w 的数据不算大，我几年前爬过卖家信息，那时候谷歌云服务可以免费领取，我开了大概 10 个机器，爬了大概可能有 100w （具体记不清，也可能是几十万）

你如果只要详情（文字信息）+ 图片地址，走默认渠道可能会有难度，因为他们的反爬比较变态，建议你找一下他们的 api 接口，速度会快很多

另外，淘宝有个开放平台， open.taobao.com 申请一个 app，然后申请权限后，就可以拿到很多商品信息

如果最后，你还搞不定，可以把你的需求和我详细说说（考虑到你说预算充足）

51

feiniu

2021-10-22 18:17:13 +08:00

需要买代理+ 账号

现在淘宝没账号，寸步难行

52

feiniu

2021-10-22 18:17:40 +08:00

商品详情现在风控很高

53

feiniu

2021-10-22 18:27:11 +08:00

@jeeyong 真大佬

54

xiaoluhi

2021-10-22 18:41:09 +08:00

1

@ospider 胖球数据据说就是阿里举报的，前段时间被端了的，爬的也是商品、价格、销量信息等等。
https://www.ixigua.com/7021106873096995358?wid_try=1

55

txx

2021-10-22 19:11:00 +08:00

1

商品详情有淘客的 API 啊...直接买 API 就行了...

56

jeeyong

2021-10-22 19:20:37 +08:00

@gamexg 破坏计算机信息系统罪及非法入侵计算机信息系统罪.

57

bybyte

2021-10-22 19:39:17 +08:00

日子越来越有判头了

58

jeeyong

2021-10-22 19:53:20 +08:00

我有社交牛逼症, 我再来多 BB 几句..
首先, 我没有任何业务是爬取淘宝的. 但是从技术角度做过验证, 发现可行. 仅此而已.
本文并未透露关于爬取淘宝的任何技术细节和技术方案, 旨在讨论人机识别技术.

淘宝在人机识别方面会更深入的做技术甄别, 通过发现更多的技术特征, 从而直接进行访问阻断或验证.
比如早期的时候, 他是我接触的相对较早去获取$_cdc 变量判断是否为爬虫的.
后来发展成为通过获取更多的特征, 来判断. 这应该是属于 v8 解析 js 的时候的引擎的特性吧? 我不太懂 js, 仅限于普通的应用层面. 我贴一部分代码, 看看做爬虫的时候, 你关注了多少.

var platform = 'iPhone'
var webdriver = false
var standalone = false
var maxTouchPoints = 5
var cookieEnabled = true
var productSub = 20030107
var product = "Gecko"
var vendor = "{vendor}"
var vendorSub = ""
var onLine = true
var hardwareConcurrency = undefined
var oscpu = undefined
var cpuClass = undefined
var doNotTrack = undefined
var getBattery = undefined
var storage = undefined
var systemLanguage = undefined
var permissions = ["geolocation", "notifications"]
var bluetooth = undefined
var standalone = undefined
var userAgent = "{userAgent}"
var shanghai = {{"longitude": 0, "latitude": 0}}
var zhongshan = {{"longitude": 0, "latitude": 0}}
var hangzhou = {{"longitude": 0, "latitude": 0}}

这些变量大部分是系统内置的变量, 在你加载页面的时候他就有了...
但是改变他的时候不能直接赋值, 这个 JS 大佬应该更清楚, 我只是知道...
需要通过 Object.defineProperty 方法去改变...

小朋友太闹了...我得哄娃去了..哈哈哈

59

jeeyong

2021-10-22 19:57:16 +08:00

1

@jeeyong 小朋友吃饭去了..
除此之外, 还可以通过 crx 插件及 js 的方式去替换掉显卡的特征..
但这些做法相对比较局限, 大规模爬取的时候还是很容易被识别出来...
相对来说, 淘宝有个好处是, 他发现你是人机, 他会要求你验证..
但是像百度, 他只是在后台默默的标记上本次访问无效...这个很难受的.
还有字节, 他是直接不给你内容, 抑或是使用蜜罐类的技术防止你爬取.
有些网站甚至发现你是爬虫后, 直接给你假的, 没有意义的内容...
我想转行...有大佬收留吗?哈哈哈
相比技术, 我也挺擅长销售和管理的...