[爬虫]看一下这个网站难爬吗? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2489 天前的主题，其中的信息可能已经有所发展或是发生改变。

http://search.anccnet.com/searchResult2.aspx 就平时自己在浏览点击差不多 10 次(相隔比较短时间内)就已经 401 了. 自己用 scrapy 爬取的时候,30 页,差不多 300 多条数据的爬取,只能获取到二十条数据. 想问这种网站爬取的话思路是怎样, 目前通过验证,用的一些免费代理的 ip 池

10 条回复 • 2018-12-20 11:24:22 +08:00

1

Le4fun

2018-07-04 16:37:20 +08:00

验证码过了么

2

crawl3r

2018-07-04 16:41:55 +08:00

@Le4fun 验证码太 tm 简单了，只要检测到一定数量连续的白色区域就破解了

3

crab

2018-07-04 16:49:51 +08:00

要稳定，租一台动态 adsl 拨号的 vps 换 IP 爬吧。

4

tingyunsay

2018-07-04 17:02:51 +08:00

@crab 老哥推荐个靠谱的厂商，买过的有问题，拨号那会儿偶尔断网，感觉是厂商服务不稳定导致的....

5

magicfam

OP

2018-07-04 17:35:24 +08:00

@Le4fun 算是过了吧. 列表可以爬到的.就是爬不了几条.新手心态爆炸

6

magicfam

OP

2018-07-04 17:40:26 +08:00

@crawl3r 我还没会那种,我的方法是里面 js 发送的一个 check_ok.再用更新头部的 cookie...这样就算是通过验证,不知道这个会有影响不.. 还是想大伙如果爬这个网站会有怎样的思路

7

magicfam

OP

2018-07-04 17:44:22 +08:00

现在用 scrapy.也不知道什么问题.爬着爬着就没了...也没报错

8

nccer

2018-07-04 17:46:39 +08:00

有个叫阿布云的 HTTP 代理商蛮好用的。

9

beforeuwait

2018-07-05 11:37:50 +08:00

同 8 楼

10

sml2h3

2018-12-20 11:24:22 +08:00

https://github.com/sml2h3/luosimao_cracker
不谢，螺丝帽点击验证码代码层的破解，不用总是复制 cookies

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1200 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 22ms · UTC 23:26 · PVG 07:26 · LAX 16:26 · JFK 19:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.