V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gouchaoer
V2EX  ›  分享发现

爬虫这一行太难了

  •  
  •   gouchaoer · 2017-05-11 23:14:58 +08:00 via Android · 7889 次点击
    这是一个创建于 2753 天前的主题,其中的信息可能已经有所发展或是发生改变。
    不干这一行不知道,现在我看到爬虫两个字就想吐
    这玩意儿蛋疼的是需要去维护
    看友商能搞为啥你不能搞?
    维护代理之麻烦
    你不知道哪里暴露了自己是爬虫,因为暴漏点太多了
    你就想如果我是后台我怎么反你最釜底抽薪
    那些用 scrapy 爬个图片爬个逼乎爬个京东评论啥的看到就烦

    你们不知道我以前是个 php 后台,熟练的业务我可以飞快的搞,都是套路。。。可是自从入了爬虫坑,我 tm 从 py 到 php,自己写策略,因为根本没有可以参考的,自己编译 selenium 驱动,资源泄露,编译 chromedriver 因为绕不开 bug,搞安卓,写 chrome 扩展,自己猜友商怎么做代理方案复制,还搞出来了一些很 cool 的东西然而没暖用。。。znm 没有套路,太难了
    39 条回复    2017-05-19 17:10:29 +08:00
    gouchaoer
        1
    gouchaoer  
    OP
       2017-05-11 23:18:30 +08:00 via Android
    某合作的友商喜欢用 QQ,我也喜欢用 qq,他们太好了,业务熟练,问的问题很好,质疑的好,比不上别人
    chenqh
        2
    chenqh  
       2017-05-12 00:57:33 +08:00 via iPhone
    大神教我写爬虫 a
    binux
        3
    binux  
       2017-05-12 01:08:29 +08:00
    chrome headless 模式可以用了。直接用呗,还要什么编译。
    限于工作限制,不能自己搞,不过我可以教你
    geelaw
        4
    geelaw  
       2017-05-12 01:57:09 +08:00 via iPhone
    WebDriver 啊
    WildCat
        5
    WildCat  
       2017-05-12 02:37:12 +08:00 via iPhone
    @binux 前辈,在伦敦找工作有什么经验可以分享吗
    binux
        6
    binux  
       2017-05-12 03:32:34 +08:00   ❤️ 7
    @WildCat #5 我都是想去哪就直接投的。。
    GoBeyond
        7
    GoBeyond  
       2017-05-12 05:58:37 +08:00 via Android
    scrapy 爬怎么了?
    lulinux
        8
    lulinux  
       2017-05-12 07:32:44 +08:00   ❤️ 1
    看到楼主这样的自言自语就烦
    murmur
        9
    murmur  
       2017-05-12 07:51:20 +08:00
    都抛弃 phantom 了。。
    lekai63
        10
    lekai63  
       2017-05-12 08:20:17 +08:00 via iPhone
    所以 php 成最烦的语言?!
    ob
        11
    ob  
       2017-05-12 08:36:19 +08:00 via Android
    难才有市场。。
    Messiahhh
        12
    Messiahhh  
       2017-05-12 08:51:52 +08:00 via Android
    对 爬虫的进攻比防守要难很多……
    panyanyany
        13
    panyanyany  
       2017-05-12 09:05:20 +08:00
    我用代理池去爬淘宝感觉还是可以的,只要控制好一个 ip 一小时内只爬几个页面,就很少被 ban。由于代理池里有 1k+个可用 ip,所以爬取效率目前来说可以接受。
    twm
        14
    twm  
       2017-05-12 09:20:07 +08:00 via iPhone
    技术没啥难的 难的是斗智斗勇
    gouchaoer
        15
    gouchaoer  
    OP
       2017-05-12 09:24:44 +08:00 via Android
    @binux 你会 chromium 二次开发么?我不想搞爬虫了,能带带我么?
    gouchaoer
        16
    gouchaoer  
    OP
       2017-05-12 09:27:21 +08:00 via Android
    @twm 我觉得你说得对,爬虫太没技术含量了,可斗智斗勇我不行啊,我没勇气又懒,人也笨
    dongxiaozhuo
        17
    dongxiaozhuo  
       2017-05-12 09:33:29 +08:00 via iPhone   ❤️ 4
    @gouchaoer 爬虫的烦恼两件事:突破反爬,解析页面。前者基本等于:你猜,后者等于富士康员工。
    MrFireAwayH
        18
    MrFireAwayH  
       2017-05-12 09:44:23 +08:00 via Android
    @binux 活捉跳蚤巨巨😱
    broono
        19
    broono  
       2017-05-12 09:53:04 +08:00 via Android
    @dongxiaozhuo 卧槽了 简直吐出了我的心声。目前在做 PY 爬虫 996 开发维护,有的还要自己封装成接口给人用做实时在线查询啊了个去,一个注册查询的接口要请求一两百个站真是感觉体力不支。
    对了,不知道富土康招不招人😂
    fuxkcsdn
        20
    fuxkcsdn  
       2017-05-12 10:05:36 +08:00 via iPhone
    特意去翻了你的发帖记录,没错,你不就是在 v2 上发过 2 篇爬虫分享文章的作者嘛😳遇到瓶颈了?
    sniffles
        21
    sniffles  
       2017-05-12 10:06:56 +08:00
    @dongxiaozhuo 强拍这条,大实话
    yangxiongguo
        22
    yangxiongguo  
       2017-05-12 10:32:41 +08:00
    最近在研究 Chrome Headless,有木有交流群之类的
    herozzm
        23
    herozzm  
       2017-05-12 11:07:47 +08:00 via Android
    @dongxiaozhuo 前者你猜就是去猜解网站的反爬策略,后者解析页面就是写各种正则,匹配规则,体力活
    soulmine
        24
    soulmine  
       2017-05-12 11:19:15 +08:00
    一把辛酸泪 坑是数不清的
    soulmine
        25
    soulmine  
       2017-05-12 11:20:14 +08:00
    @herozzm 前面也是体力活 斗智斗勇猜反爬 限速你要去测阈值
    suliuyes
        26
    suliuyes  
       2017-05-12 12:11:52 +08:00
    @herozzm 为什么一定要写正则?选择器和 xpath 也很好用啊。用正则超级累。
    herozzm
        27
    herozzm  
       2017-05-12 12:55:04 +08:00 via Android
    @suliuyes 有些
    herozzm
        28
    herozzm  
       2017-05-12 12:58:10 +08:00 via Android
    @suliuyes 有些场景必须正则,还有 json 的,xpath 和类 jquery 选择器不如正则方便,没有 class,没有 id,没有属性,藏的很深的 node
    cxh116
        29
    cxh116  
       2017-05-12 14:17:47 +08:00 via Android
    @panyanyany 请问代理池的 ip 是采集的?还是购买的?还是自己扫的?
    panyanyany
        30
    panyanyany  
       2017-05-12 15:36:47 +08:00   ❤️ 1
    @cxh116 #29 以前买过 ip,但感觉有效 ip 太少,现在主要是采集为主,采集回来还要验证一下,有效 ip 虽然也不多,但好在是免费的
    gulullu
        31
    gulullu  
       2017-05-12 15:38:48 +08:00
    znm。。。。陕西人?
    chinafeng
        32
    chinafeng  
       2017-05-12 15:39:46 +08:00
    推荐一款云爬虫产品: https://www.zaoshu.io
    我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了
    crab
        33
    crab  
       2017-05-12 15:42:10 +08:00   ❤️ 1
    @binux 你博客证书到期了。
    binux
        34
    binux  
       2017-05-12 15:50:37 +08:00 via Android
    @gouchaoer 调接口就够了,没必要源码层面二次开发
    gouchaoer
        35
    gouchaoer  
    OP
       2017-05-12 16:45:28 +08:00
    @chinafeng 我看你搞了这么久,赚钱了么?能拉上我么
    chinafeng
        36
    chinafeng  
       2017-05-12 17:16:08 +08:00
    @gouchaoer #35 什么东西 ?
    ZSeptember
        37
    ZSeptember  
       2017-05-12 18:19:11 +08:00
    其实现在的爬虫已经没什么技术难度了,有的只是资源问题。
    不管怎么样,只要浏览器端能看见的,都能够爬到,像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。
    其实什么策略都是没什么用的,有策略,速度就曼了,没什么用。
    所以,就是堆 IP,或者帐号而已。
    做到后面就没啥了,就是一些规则+流程而已
    TonyG
        38
    TonyG  
       2017-05-19 16:55:26 +08:00
    @gouchaoer 之前看过你的 PHP 爬虫文章,感觉写的太好了。又看到这篇,感觉唏嘘,这个方向确实太考验人了。你说都是自己编译 selenium, chromedriver,是现成的包有什么问题吗?另外现在有类似 Laravel Dusk 这种测试方案是否有用于爬虫的可能呢?
    gouchaoer
        39
    gouchaoer  
    OP
       2017-05-19 17:10:29 +08:00
    @TonyG 你以为我想编译啊,出了 bug 绕不开只有上咯。。。。我 laravel 黑
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1230 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:14 · PVG 02:14 · LAX 10:14 · JFK 13:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.