这不是一个数据从业者的基本素养?
1
bazingaterry 2017-11-18 11:54:34 +08:00 via iPhone
术业有专攻,看需求
|
2
p2pCoder 2017-11-18 12:07:21 +08:00 3
要看你要收集的数据的多少和爬取的网站的难度了
就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫 核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上 然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑 这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门 |
3
ljcarsenal 2017-11-18 12:17:11 +08:00 via Android
@p2pCoder 阿里系这种大公司也能破?
|
4
p2pCoder 2017-11-18 12:23:25 +08:00
@ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行 京东和淘宝我们都这样做了,不过相当麻烦 反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候 当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie |
6
p2pCoder 2017-11-18 12:31:25 +08:00
@takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
说到底,这些老板 还是想做自己的风控,做自己的数据 |
7
golmic 2017-11-18 13:13:23 +08:00
@p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。
|
8
codermagefox 2017-11-18 14:07:19 +08:00
@p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜
|
9
hugee 2017-11-18 14:49:30 +08:00 via Android
采简单的东西当然没问题,一看 lz 就是没遇到过有难度的
|
10
sunchen 2017-11-18 15:26:00 +08:00 1
日常 30%时间写爬虫的路过。
想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码? 其实我想说 sql 写的溜一般是爬虫工程师的基本素养。 |
11
sensui7 2017-11-18 15:51:04 +08:00
有没有专门的岗位取决于工作量, 而不是技术.
|
12
Lin3w 2017-11-18 16:57:19 +08:00 via Android
大型分布式爬虫。。。
而且工作量是岗位分配的一个影响因素吧 |
13
gouchaoer 2017-11-18 17:37:33 +08:00 via Android
@sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了?
|
14
gouchaoer 2017-11-18 17:45:30 +08:00 via Android
@sunchen 能求个微博关注一下么? V2EX 没私信不好说啊,我这边有些心得我们可以交流一下
|
15
defunct9 2017-11-18 19:19:21 +08:00 via iPhone 1
感觉楼上都是作恶的人啊
|
18
artandlol 2017-11-18 19:42:28 +08:00 via iPhone
防爬虫都可以再招个人
|
19
shyling 2017-11-18 20:53:46 +08:00
表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取?
|
20
whatisnew 2017-11-18 22:28:47 +08:00
开发还得招专门的开发工程师?产品运营客服两下就搞定了
|
21
SlipStupig 2017-11-19 10:34:20 +08:00
Google 一定没有爬虫工程师,因为这个不是基本素养嘛
|
22
abcbuzhiming 2017-11-19 17:16:27 +08:00
楼主你自己去看看最近的反爬,反反爬技术进步到什么程度了,这行我觉得难度已经追上搞安全和逆向的行业了,怎么会不需要专业工程师
|