最近开始看 python ,看到论坛里的大神们爬知乎等各种网站,求教程,
1
AozakiT 2016-09-17 10:30:32 +08:00
google
|
2
uyhyygyug1234 2016-09-17 10:31:06 +08:00
不是有个手把手系列。。。
|
3
TimePPT 2016-09-17 10:37:28 +08:00 via iPhone 12
不建议一开始就学爬虫,如果仅仅是照猫画虎,会不求甚解,换个场景你就懵逼了。因为爬虫用到的不仅仅是 Python 的相关知识,还有包括 HTTP 请求,前端网页相关的知识。
建议先学会了 Python 本身的语法,然后从简单的 request 开始,理解 Get Post 请求, HTTP 的请求 head body ,知道 UA 的原理,知道什么是 session cookies ,然后试着解析静态 HTML 结构,理解什么是父级子级,最后试着解析 JS 生成内容,理解怎么处理 AJax 请求。 response 中返回的 XML 和 JSON 格式数据的解析。最后再去看怎么挂代理,怎么分布式爬虫,规模爬取内容的数据清洗与入库。 里面还涉及到七七八八,慢慢看吧…… |
4
frankmdong 2016-09-17 10:40:32 +08:00
|
5
GreatMartial 2016-09-17 11:48:17 +08:00
@TimePPT 正解,+1
|
6
kingcos 2016-09-17 12:44:52 +08:00 via iPhone
看慕课网的视频?
最近也在看,想爬点同学的证件照……(只是练练手。。) |
7
loading 2016-09-17 12:48:23 +08:00 via Android
至少要先看懂 html 和知道 cookie 和 session 再学
|
8
wizardforcel 2016-09-17 13:48:34 +08:00 via Android
《图解 http 》+ requests 、 bs4 等库的文档。
|
9
sola97 2016-09-17 16:23:18 +08:00 1
我是从教务系统入手的..
上乌云->找现成漏洞->得到管理员帐号->学 python->学 HTTP 协议->写自动登录->抓取学生信息->正则或 Xpath 解析->存数据库->抓证件照->部署服务器->写 php->做在线查询 |
12
ila 2016-09-17 17:38:52 +08:00 via Android
找个简单的代码慢慢改,重要的是用 python3
|
13
billion 2016-09-17 20:55:18 +08:00 3
我在极客学院讲《定向爬虫入门》系列课程,以下是课程链接:
基本的正则表达式: http://www.jikexueyuan.com/course/777.html Python 单线程爬虫: http://www.jikexueyuan.com/course/821.html XPath 与多线程爬虫: http://www.jikexueyuan.com/course/902.html 简单的模拟登录: http://www.jikexueyuan.com/course/995.html Scrapy 初探: http://www.jikexueyuan.com/course/1287.html MongoDB 与 Scrapy : http://www.jikexueyuan.com/course/1439.html Scrapy 与 Redis 入门: http://www.jikexueyuan.com/course/1556.html 动态加载网页的爬取: http://www.jikexueyuan.com/course/1713.html 以上课程基于 Python2 制作,以下课程基于 Python3 制作: 验证码识别, Selenium ,各种反爬虫机制突破: http://www.jikexueyuan.com/zhiye/course/28.html?type=4 目前正在做分布式爬虫的课程,很快就可以发布。 |
15
smilekung 2016-09-17 21:29:11 +08:00
python 搞爬虫是不是有传统啊,感觉新入门用 js 写爬虫超级方便啊
|
16
greatghoul 2016-09-17 21:36:55 +08:00 via iPhone
我就是一边学写爬虫,一边学习 py 的语法,相比干学知识点和语法,在用中学才是最棒的。
|
17
binux 2016-09-17 21:51:22 +08:00
学会写网站,你就会爬了。
|
18
peneazy 2016-09-18 07:01:42 +08:00 via Android
mark 一下
|
19
brucedone 2016-09-18 10:36:49 +08:00 1
如果你想用 scrapy 呢,我写了很多教程:
(1)分布式下的爬虫 Scrapy 应该如何做-安装 (2)分布式下的爬虫 Scrapy 应该如何做-关于对 Scrapy 的反思和核心对象的介绍 (3)分布式下的爬虫 Scrapy 应该如何做-递归爬取方式,数据输出方式以及数据库链接 (4)分布式下的爬虫 Scrapy 应该如何做-规则自动爬取及命令行下传参 (5)分布式下的爬虫 Scrapy 应该如何做-关于爬虫的调度机制与调度架构的构想 (5.1)分布式下的爬虫 Scrapy 应该如何做-windows 下的 redis 的安装与配置 (6)分布式下的爬虫 Scrapy 应该如何做-关于实时 Debug 的那些事儿 (7)分布式下的爬虫 Scrapy 应该如何做-关于伪装和防 Ban 的那点事儿 (8)分布式下的爬虫 Scrapy 应该如何做-图片下载(源码放送) (9)分布式下的爬虫 Scrapy 应该如何做-关于 ajax 抓取的处理(一) (10)分布式下的爬虫 Scrapy 应该如何做-关于动态内容 js 或者 ajax 处理(2) (11)分布式下的爬虫 Scrapy 应该如何做-关于 js 渲染环境 splash 的一些使用技巧总结 (12)分布式下的爬虫 Scrapy 应该如何做-分布式的浅析 (13)分布式下的爬虫 Scrapy 应该如何做-另一种分布式架构 http://brucedone.com/archives/771 我不建议新人一上手就学框架,你至少要弄懂基本的 html ,css,javascript, http 请求,正则或者 xpath,数据存储,语言基础。 |
20
thisisx7 2016-09-18 11:38:27 +08:00
首先是这是是你要的爬虫教程,比较系统,可以跟着一点一点学习。
Python 网络爬虫系列教程, Python 中文社区出品 https://zhuanlan.zhihu.com/p/22476800 顺带说下 Python 入门不一定从爬虫开始。 http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 来自廖雪峰,很好的 Python 入门教程 |
21
echonoff 2016-09-20 19:56:22 +08:00
完全可以依靠 google 。我就是把忘的差不多的 py 教程从头翻了一遍+自学爬虫+实现一个扒动漫图片的脚本,总共十天。还顺便学了 bs , re …… 从此对 python 路转粉=。= 记得多翻官方的文档
|