V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
borischenc
V2EX  ›  Python

突发奇想,准备开坑一个从零开始的 Python 爬虫教程

  •  
  •   borischenc · 2017-03-30 13:00:24 +08:00 · 6385 次点击
    这是一个创建于 2794 天前的主题,其中的信息可能已经有所发展或是发生改变。

    偶然间发现简书这个网站对 markdown 支持的很不错。界面看起来也很漂亮。

    所以就想写一个博客。想了半天博客里面放什么,意识到最近 python 爬虫学的挺带劲的,所以干脆一不做二不休,写了一个 python 爬虫从零开始的教程。

    但毕竟对爬虫的了解还是有限,我把__博客-爬虫其实很简单__贴在这里,有什么问题也希望大家多多指正。

    (顺便问一下。。之前又一篇相同的文章发错了区,要怎么撤回呢?)

    第 1 条附言  ·  2017-04-01 18:15:22 +08:00

    第二篇文章出炉了,还请大家多多指教哦~ [爬虫其实很简单] 模拟登陆与文件下载

    47 条回复    2017-04-01 18:14:28 +08:00
    superlead
        1
    superlead  
       2017-03-30 13:02:37 +08:00
    不错,坚持加油!
    最近我在捣鼓 flask 。。。。
    litao6550652
        2
    litao6550652  
       2017-03-30 13:11:01 +08:00
    已收藏 加油
    d7101120120
        3
    d7101120120  
       2017-03-30 13:18:42 +08:00
    已收藏
    prasanta
        4
    prasanta  
       2017-03-30 13:20:11 +08:00
    互联网似乎缺少一个真正的在线写书的平台
    zhuxd282
        5
    zhuxd282  
       2017-03-30 13:40:22 +08:00
    已关注。期待后续~
    we3613040
        6
    we3613040  
       2017-03-30 13:43:12 +08:00
    碉堡了,写的不错
    bonfy
        7
    bonfy  
       2017-03-30 13:48:03 +08:00
    好了,我又来搭车传销了,也是爬虫,也是 糗事百科。。。写了大半年了

    http://www.jianshu.com/p/a0aca9719a7f

    专题系列,有些坑其实还没填。。。
    bonfy
        8
    bonfy  
       2017-03-30 13:48:25 +08:00
    @prasanta 有写书平台的, Gitbook
    Aspx
        9
    Aspx  
       2017-03-30 13:48:48 +08:00 via Android
    很详细,支持
    Spectre
        10
    Spectre  
       2017-03-30 13:50:55 +08:00
    写的挺好啊
    zgzh
        11
    zgzh  
       2017-03-30 14:01:15 +08:00
    支持,谢谢,期待续集
    prasanta
        12
    prasanta  
       2017-03-30 14:02:55 +08:00
    @bonfy 也许需要一个接地气的?
    sangmong
        13
    sangmong  
       2017-03-30 14:04:01 +08:00
    蟹蟹
    Sapp
        14
    Sapp  
       2017-03-30 14:07:51 +08:00   ❤️ 1
    教程类的很容易上星星,如果论坛愿意给你置顶,上千星星简直是易如反掌。
    Luckyray
        15
    Luckyray  
       2017-03-30 14:18:06 +08:00 via iPhone
    支持!希望能讲的深入点,分布式,登录验证神马的。既然边探索边教,不放把踩过的坑都写写😀
    lwbjing
        16
    lwbjing  
       2017-03-30 14:26:00 +08:00
    挖坑记得填好啊。。
    Kilerd
        17
    Kilerd  
       2017-03-30 14:56:29 +08:00   ❤️ 1
    我觉得把,如果写爬虫教程还需要一步一步教他们怎么用 pip , 简直就是浪费时间吧。

    这种文章,百度一下一大堆(并不是在否认楼主的工作)

    我是觉得吧,入门的文章多如牛毛,然后深入的文章,整个百度可能只有一篇。

    与其教怎么入门,不如试下解决难点。



    @superlead 我在着魔写框架, 难受
    toan
        18
    toan  
       2017-03-30 15:08:21 +08:00
    不错~加油!
    borischenc
        19
    borischenc  
    OP
       2017-03-30 15:57:44 +08:00
    @Luckyray 哈哈好的啊,我也在不断的学习。我会不断的把学到的结合自己的理解都加上去的~
    borischenc
        20
    borischenc  
    OP
       2017-03-30 16:01:16 +08:00   ❤️ 1
    @Kilerd
    嗯嗯你说的也有道理。

    可能我觉得我的教程定位有点不一样。我希望我能够带那些徘徊在门口不敢进去,在不断张望的人一个入口。让他们也感受到爬虫的简单与有趣。

    你说的难点确实也是很重要的。我也在不断的学习攻克一些东西,这个教程也会慢慢的由浅入深,慢慢的过渡到比较高级的事情上面去。

    非常感谢你的建议。我也会认真思考我的教程的定位点在哪里的。
    freshmanc
        21
    freshmanc  
       2017-03-30 16:13:41 +08:00 via Android
    同意 killerd 的观点…网上好像总览性的内容不多(可能是我没找到…
    awanabe
        22
    awanabe  
       2017-03-30 16:25:40 +08:00
    说实话, 写 python 教程的都是爬虫。。。还不如写写怎么抓怎么好玩的思路什么的
    borischenc
        23
    borischenc  
    OP
       2017-03-30 16:37:51 +08:00
    @awanabe 嗯嗯,其实简介里面也有说,我学习爬虫是因为一个比赛。这个比赛的内容其实也很有意思,我也会深入的去思考怎么用不一样的方式去做爬虫。之后我也会把这些内容放到里面吧~
    毕竟说是教程,其实某种意义上也是我自己的学习笔记~和大家一同分享。
    pyufftj
        24
    pyufftj  
       2017-03-30 16:37:53 +08:00   ❤️ 1
    @awanabe 可以预见,一大波车正在开来
    onenightintokyo
        25
    onenightintokyo  
       2017-03-30 16:46:47 +08:00
    已关注
    suantong
        26
    suantong  
       2017-03-30 17:01:00 +08:00 via Android
    关注,请大佬按时发车。
    ahkxhyl
        27
    ahkxhyl  
       2017-03-30 17:53:45 +08:00
    刚刚 py 入门 @
    cncqw
        28
    cncqw  
       2017-03-30 17:58:32 +08:00
    支持楼主,希望坚持写下去。
    prolic
        29
    prolic  
       2017-03-30 18:00:58 +08:00
    支持,希望能写一写抓包分析流程,和 JavaScript 分析以及 Ajax 和 JsonP 的东西,前两天有人问我我没时间往细了讲
    SgtDaJim
        30
    SgtDaJim  
       2017-03-30 18:06:26 +08:00
    导航已收藏~
    hjdtl
        31
    hjdtl  
       2017-03-30 22:52:55 +08:00
    资瓷!
    apisces
        32
    apisces  
       2017-03-31 00:05:25 +08:00 via iPhone
    已经关注楼主了
    cstome
        33
    cstome  
       2017-03-31 00:43:57 +08:00
    我觉得写详细点对我这种刚入门的还是很友好的!!!
    borischenc
        34
    borischenc  
    OP
       2017-03-31 00:49:40 +08:00
    @Luckyray 嗯嗯一定的,我会把我遇到的坑,做过的东西都一点一点放出来的。因为我想做一个通俗易懂的读物,所以东西应该也是由浅入深的来。我也会加油的~
    az1996
        35
    az1996  
       2017-03-31 08:56:47 +08:00
    已收藏.
    kancloud
        36
    kancloud  
       2017-03-31 08:57:11 +08:00
    国内还是推荐使用看云来写技术文档教程 http://www.kancloud.cn/explore
    velee
        37
    velee  
       2017-03-31 10:24:42 +08:00
    @bonfy 哈哈 找到你了,我还给你去过 email ,希望能继续出接下来的几集!
    borischenc
        38
    borischenc  
    OP
       2017-03-31 10:34:30 +08:00
    @kancloud 看云主要优势是什么呢?之前都没有看到有人用过
    Lumend
        39
    Lumend  
       2017-03-31 11:46:51 +08:00
    做了一个类似的,难点是在于 url 去重,全站 url 攫取,图片下载与替换, dom 截取也过于麻烦,后来就用了 node 了
    sakura1357
        40
    sakura1357  
       2017-03-31 13:33:09 +08:00
    已关注,坐等楼主更新,谢谢楼主啦
    kancloud
        41
    kancloud  
       2017-03-31 13:43:20 +08:00
    @borischenc gitbook 有的功能看云都有 ,主要包括 GIT+MD+团队写作,还支持付费阅读和打赏,帮助开发者通过文档教程创收
    mokeyjay
        42
    mokeyjay  
       2017-03-31 15:20:29 +08:00
    马克,请务必坚持!
    ChopMoun
        43
    ChopMoun  
       2017-03-31 17:11:28 +08:00
    每一件事情,只要坚持做下去都很了不起
    andyL
        44
    andyL  
       2017-03-31 19:16:35 +08:00
    66666 followed
    borischenc
        45
    borischenc  
    OP
       2017-03-31 19:38:30 +08:00
    @mokeyjay
    @ChopMoun
    嗯嗯,我会坚持做下去的~
    anson2416
        46
    anson2416  
       2017-04-01 15:27:44 +08:00
    我也在学习,请多多指教。
    现在测试过程中已经遇到连接数过多的问题了( Max retries exceeded with url )。请问有办法解决吗?
    重启路由还是不行。

    requests.adapters.DEFAULT_RETRIES = 5
    requests.session()
    requests.keep_alive = False

    try:
    response = get(link_iamge, timeout=0.001)
    if response.content_type()>0:
    with open(file_name, "wb") as file:
    file.write(response.content())
    except Exception as err:
    print("Error: {0}".format(err))
    requests.session().close()
    borischenc
        47
    borischenc  
    OP
       2017-04-01 18:14:28 +08:00
    @anson2416 这方面我也还没辙呢,可能你试一下在 stackoverflow 问问呢?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2823 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 11:27 · PVG 19:27 · LAX 03:27 · JFK 06:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.