V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
buaishi
V2EX  ›  Python

新手学 Python 爬虫

  •  
  •   buaishi · 2019-09-18 23:26:42 +08:00 via Android · 4593 次点击
    这是一个创建于 1892 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我是一名大学 Python 小白,我一次偶然的机会接触到了 Python 爬虫,感觉很是喜欢,所以我现在真心想了解和学习这方面技能,不知道前辈有什么推荐书籍或者其他学习方式吗?

    25 条回复    2019-09-23 00:49:19 +08:00
    linvaux
        1
    linvaux  
       2019-09-19 00:15:53 +08:00 via Android
    先把 requests 库看明白
    buaishi
        2
    buaishi  
    OP
       2019-09-19 00:23:19 +08:00 via Android
    @linvaux 好嘞 明白
    MrZhaoyx
        3
    MrZhaoyx  
       2019-09-19 09:00:19 +08:00
    最近在看《 Python 网络数据采集》,写的挺不错的
    Leigg
        4
    Leigg  
       2019-09-19 09:14:57 +08:00 via Android
    requests,beautifulsoup,scrapy,lxml,re,这几个是爬虫必知必会的库,先用熟,再看源码掌握其原理就是中高级了。
    aaronhua
        5
    aaronhua  
       2019-09-19 09:37:33 +08:00
    哔哩哔哩上一搜一大把的视频教程。个人觉得,新手不建议看书。视频更容易入手些。
    buaishi
        6
    buaishi  
    OP
       2019-09-19 10:17:14 +08:00 via Android
    @MrZhaoyx 好的 我去了解了解
    buaishi
        7
    buaishi  
    OP
       2019-09-19 10:17:36 +08:00 via Android
    @Leigg 谢谢哈
    locoz
        8
    locoz  
       2019-09-19 10:18:25 +08:00
    先定义一下爬虫的两种方向:
    垂直爬虫指只爬特定的某些网站,且对所需数据都进行标准化、格式化的爬虫
    通用爬虫指做搜索引擎、新闻聚合等用的那些爬虫,什么网站都爬,但只需要提取一些浅层的数据

    然后你可以先看看崔庆才的书,现在他那个书的第一版已经免费了,在博客上就能直接看,虽然不算很深,但广度基本足够了,入门的时候用来了解一下还是可以的。
    然后看方向决定是深入哪方面,如果想往垂直爬虫方向发展就深入逆向,如果想往通用爬虫方向发展就深入算法、机器学习。
    buaishi
        9
    buaishi  
    OP
       2019-09-19 10:18:42 +08:00 via Android
    @aaronhua 进军 b 站 哈哈
    buaishi
        10
    buaishi  
    OP
       2019-09-19 10:20:07 +08:00 via Android
    @locoz 知道了 会去了解的 谢谢哈😁
    locoz
        11
    locoz  
       2019-09-19 10:22:07 +08:00
    偷偷打个广告,我之前发的文章也可以看看。我现在和几个号主一起组建了 NightTeam 团队(微信公众号沿用了之前的 [小周码字] ),未来发布的文章也可以看看,都是高质量文章,跟那些一天到晚标题搞噱头、内容纯水的号不一样。
    buaishi
        12
    buaishi  
    OP
       2019-09-19 10:26:48 +08:00 via Android
    @locoz 好的 OK 我也弄了个公众号 孟夏启明 但不知道干什么用😂😂😂
    Zhancha
        13
    Zhancha  
       2019-09-19 11:17:11 +08:00 via iPhone
    @buaishi 也可以试试原生库,再使用 requests 和 requests-html
    zdnyp
        14
    zdnyp  
       2019-09-19 11:26:00 +08:00
    @Leigg 这个里中高级还有点远吧...还有 JS 和逆向呢
    zdnyp
        15
    zdnyp  
       2019-09-19 11:26:45 +08:00
    @locoz +1
    hackxing
        16
    hackxing  
       2019-09-19 13:34:24 +08:00
    自己学 Python 爬虫的笔记: https://meowv.com/category/python/
    wangkai0351
        17
    wangkai0351  
       2019-09-19 13:38:44 +08:00
    @hackxing 大多是照本宣科,看不出有自己的理解见解,库源码分析都没有,就不要拿出来了吧
    wolfan
        18
    wolfan  
       2019-09-19 13:41:02 +08:00 via Android
    @aaronhua 看书加视频,理论加实践更好。
    SjwNo1
        19
    SjwNo1  
       2019-09-19 13:48:03 +08:00
    反爬 反反爬 反反反爬 。。。。
    DOUWH
        20
    DOUWH  
       2019-09-19 17:31:58 +08:00
    真心劝你别学爬虫~
    337136897
        21
    337136897  
       2019-09-19 21:06:42 +08:00
    你悠着点,已经不少学爬虫 的进了看守所了
    cherbim
        22
    cherbim  
       2019-09-20 05:47:30 +08:00
    实战效率最高,找视频跟着爬
    ps:对了,讲个笑话,搞爬虫的最后归宿永远是看守所
    buaishi
        23
    buaishi  
    OP
       2019-09-20 14:15:14 +08:00 via Android
    @DOUWH 我觉得很酷很感兴趣 爬虫是炒起来的吗?
    DOUWH
        24
    DOUWH  
       2019-09-20 15:10:53 +08:00
    @buaishi 单纯的爬虫技术栈太单一, 复杂的爬虫技术栈太乱,我看过一篇文章讲的好,文章中提到,现在的爬虫是公司想让你爬什么你就能爬什么,当你的爬虫成本远大于你的爬虫收益,企业就会放任你去爬。现在网络安全法律日益健全,爬虫的道路越来越窄,整合表层数据,获取的都是普通数据,凡是深入一点的数据都是商业犯罪。自己玩玩还可以,不利于职业发展
    buaishi
        25
    buaishi  
    OP
       2019-09-23 00:49:19 +08:00 via Android
    @DOUWH 明白了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   922 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 22:07 · PVG 06:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.