比如
https://list.tmall.com/search_product.htm?s=0&cat=50103156&&brand=94136&&q=%B7%A2%C4%A4&&sort=s&&style=g&&search_condition=23&&from=sn__brand-qp&&active=1&&industryCatId=50103156&&spm=a220m.1000858.1000721.1.6bdd6701AdE1fX
想问有没有不需要登陆 /账号信息抓取的方法, 找了几个接口, 都需要登陆, 即使带上登陆 cookie 不久也会被封, 关键现在不给账号密码, 只有 cookie, 模拟登陆也不能. 有没有大佬有比较好的办法或者接口.
觉得这是一个很无理的问题 -.- , 不过我要自闭了
1
Yourshell 2018-10-22 15:01:33 +08:00
你模拟一下浏览器, 别直接 requests。
|
2
insomnia1232 2018-10-22 15:06:11 +08:00
把 useragent 改成浏览器?反正就是伪装成浏览器
|
3
ljspython 2018-10-22 15:13:02 +08:00
没代理池你还想爬天猫?
|
4
jdgui 2018-10-22 15:14:54 +08:00
帮忙人工置顶。。
之前遇到过一个外包,考虑到阿里变态的反爬虫没做。 坐等大佬答疑解惑,有答案了 @我一下。。 |
5
beny2mor 2018-10-22 15:15:21 +08:00
算了呦
你猫的账号被封了怎么办。。。 |
6
PulpFunction 2018-10-22 15:19:51 +08:00
哈哈 我有方案,已经成熟
正研究店铺所有物品 |
7
VDimos 2018-10-22 15:24:25 +08:00 via Android
没点儿 ip 敢爬阿里系,佩服
|
8
realpg 2018-10-22 16:19:06 +08:00
小学生挑战哥德巴赫猜想系列
|
9
Nimrod 2018-10-22 20:06:03 +08:00
点进来之前以为是猫眼的我 233333
|
10
huaerxiela 2018-10-22 20:20:34 +08:00
登陆账号也会各种验证你
|
11
zhijiansha 2018-10-22 20:23:16 +08:00
是不是频率太快了?
|
12
251243021 2018-10-22 20:26:35 +08:00
ip 池.不然稍微多了点就被会扳
|
13
zr8657 2018-10-22 21:54:16 +08:00
selenium 打开百度,用那个百度搜天猫,然后打开就不会直接要求你登录了。还是多换 IP,我也正在爬某猫
|
14
alcarl 2018-10-22 22:03:33 +08:00 via Android
我很好奇,爬这个有啥用吗?
|
15
cdwyd 2018-10-22 22:10:20 +08:00
天猫的反爬虫挺变态的,貌似会自我学习,你研究出来一个办法,过一段时间后就失效了
|
16
murmur 2018-10-22 22:50:13 +08:00
爬阿里系可悠着点 毕竟自己还要用支付宝和淘宝
|
17
murmur 2018-10-22 22:51:51 +08:00
@zr8657 阿里的代码里很容易就找到$cdc_asdjflasutopfhvcZLmcfl_"in document||navigator.webdriver 这种检测自动化的代码
兄弟是自己改过变量名重新编的么 |
18
ctro15547 2018-10-22 22:54:27 +08:00
需求说明白点?。。这种页面如果牺牲效率的话,爬起来挺简单的。。
|
19
wmhx 2018-10-22 22:59:12 +08:00
国内的需要手机号, 而且都比较变态啊 , 那点钱真不值得.
|
20
update 2018-10-23 09:12:52 +08:00
试试 chrome 的 Web Scraper 插件
|
21
locoz 2018-10-23 11:42:30 +08:00
给你个提示,尝试一下 H5 版本的搜索接口
|
22
locoz 2018-10-23 11:43:36 +08:00
然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
|
23
zr8657 2018-10-23 15:46:07 +08:00
@murmur selenium 用 firefox 就检测不到 webdriver,Chrome 就能检测到,找了一天也没找出为什么,头晕
|
24
SpiderXiantang 2018-10-23 22:09:38 +08:00
selenium
|