想系统的学一下爬虫，各位大佬有没有比较好的，比较系统的教程，最好是从零开始。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1376 天前的主题，其中的信息可能已经有所发展或是发生改变。

开始用 selenium 感觉还挺好用的，我说那就爬爬淘宝，然后刷一会就被淘宝限制了。网上反爬的教程一大堆，也不知道哪些是可行的。
后来又发现有 Puppeteer 个东西，v 友有爬虫大神能分享点教程么谢谢了

第 1 条附言 · 2021-05-27 14:43:47 +08:00

看了大家的回复，我准备从入门到放弃了

教程

爬虫

Selenium

puppeteer

33 条回复 • 2021-05-29 09:47:57 +08:00

SlipStupig

2021-05-27 10:30:34 +08:00

先从学习《网络安全法》学起，这不是开玩笑，我是认真的

murmur

2021-05-27 10:32:04 +08:00

爬虫简单，反爬攻破难，需要经验，那都是别人吃饭的东西怎么可能随便分享给你，你上来就想挑战淘宝

zror

2021-05-27 10:37:27 +08:00

@murmur 我不是想爬淘宝的数据，就是想秒杀个玩具

no1xsyzy

2021-05-27 10:51:16 +08:00

@zror 那不还是淘宝吗？能爬淘宝大概能算爬虫学硕士毕业。
所有网站你只能一个个去试，指不定昨天刚封堵一个反爬方式。

herozzm

2021-05-27 10:55:12 +08:00 via Android

一来就调整高难题目，先爬爬小网站吧，无非就是验证码破解，ip 限制，前端加密等等

chennuo

2021-05-27 11:09:22 +08:00

真的！从《网络安全法》学起！真的认真的～不要问我为什么？我是一个有故事的人！

Lemeng

2021-05-27 11:12:00 +08:00

淘宝是非常钢的。建议参考上面大神的建议

mschultz

2021-05-27 11:14:14 +08:00 via iPhone

阿里系的很多网页（淘宝、高德地图）正常人类正常浏览都有困难吧（休息会儿呗，坐下来喝口水，我们马上回来）

palexu

2021-05-27 11:22:43 +08:00

一上来就挑战电商网站。。。这种大电商都养着一整个专业反爬虫团队呢

Jwyt

2021-05-27 11:26:34 +08:00

哪有一上来就用自动化测试的东西弄爬虫的？
建议先去看看 http 协议，python 的话先多用 urllib 和 requests
获取数据之后是清洗数据，看看 html 解析、xml 、正则
上面的用的差不多了，学习下爬虫框架，scrapy 、pyspider
再深入的话就是反反爬和大规模爬虫性能这块了，包括 js 反解、app 抓包、逆向。。

tuoov

2021-05-27 11:39:16 +08:00

《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程，不过现在高级点的爬虫基本上都靠逆向和抓包，更多是偏实践的东西

Numbcoder

2021-05-27 11:42:48 +08:00

爬虫写的好，牢饭吃到老

byte10

2021-05-27 11:49:37 +08:00

爬虫其实很简单的啦，如果高频的去爬就很难。你要先搞定账号，IP，这些搞定之后，去重写一个开源的浏览器，然后把 GUI 那层 css 渲染去掉，基本就完美的爬了。

shuxhan

2021-05-27 11:49:40 +08:00

从入门到入牢

ysmood

2021-05-27 12:44:51 +08:00 via Android

只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/

imn1

2021-05-27 13:10:15 +08:00

没事，就三个步骤：抓页面，分析代码，保存（或下载文件）
只是 2 用 python 比较省心，多年以前用 php 就一个编码都弄得头疼
1/3 其实跟 python 没啥关系（哪个顺手都可以），我更多用 wget/aria2

以前爬过几千万张图片（累计），可能上亿，现在没啥动力爬了，另一方面是封闭了，有帐号都不给看，更别说没帐号了

最后，一开始就刷大厂，你真以为所见即所得啊，爬虫练手最好先找外面的，例如岛国（顺便学一下编码问题）

buffzty

2021-05-27 13:49:53 +08:00

@imn1 哪个语言写爬虫没有编码语言? 函数都不会用还写 php 吗? html 适合你

imn1

2021-05-27 14:21:37 +08:00

@buffzty #17
我不知道你这么激动是为什么
我说的编码指的是，gbk/big5/shift-jis/enc-k/utf8 这些，不是写代码
php5.3 前在 windows 处理 unicode 是痛点，特别是非 ASCII 路径，5.3 后就没写过了，“多年前”指的是这个

我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料，不过没空整理，都送人了
我没任何歧视 php 的意思，我是因为发现 python 处理韩文 windows 路径很方便，才转过去的