专门实战类的教程书籍可以推荐呀。 看理论书籍很快就忘记了。
1
kenshinhu 2015-10-19 10:12:10 +08:00
火车头采集是什么来的?
|
2
hippoboy 2015-10-19 11:04:20 +08:00
个人感觉 python 的书籍不是很多
有编程经验的看看 github 的实例,再不行 oschina 上也有很多 换句话说,seo 运营为王....比较反感那种用火车头抄抄抄的网站....转成 python,依然反感->_-> 当然做信息集合的精选就另说了 |
3
lecher 2015-10-19 11:46:12 +08:00
只会用火车头,说明可能有几点没有掌握好。
1.数据库读写操作 2.编写基础的逻辑代码,循环,判断等等 但是至少这些是了解的。 1.html 的结构和显示原理 2.基础的服务器搭建 3.正则表达式 以上的五点都了解,就可以做到用 python 写采集器了。 所以除了看 python 的理论书籍之外,再增加数据库操作的学习就可以做到写一个阻塞的单线程采集器来替换火车头了。 学习阶段无非就是这几个。 1.学会用 python 抓取网页信息, requests 之类的库很方便就可以抓取到网页内容。 2.学会用 python 解析网页信息,可以用正则表达式扫描,也可以用 lxml 之类的将 html 解析成序列化的结构数据。 3.学会用 python 读写数据库, pymysql 之类的。达到第三阶段就可以实现用 python 写一个可以替换火车头的采集器了。 4.学习任意一个 python 的爬虫框架如 scrapy ,把 1 、 2 、 3 阶段的操作都放到框架里面,可以方便做采集任务的管理。 |