V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Mnzz0785
V2EX  ›  问与答

有从事爬虫或数据分析的大佬,小弟有些问题想请教一下。

  •  
  •   Mnzz0785 · 2018-08-20 22:07:18 +08:00 · 1135 次点击
    这是一个创建于 2291 天前的主题,其中的信息可能已经有所发展或是发生改变。

    1、在日常的工作中,大佬们的每日爬取数据量是多少,与数量对应的,都是如何处理爬取数据的(存放,清洗及分析)

    2、在项目中,如果有数据爬取的团队,人数的配置和分工是多少呢?

    3、在读崔庆才所著《 python3 网络爬虫实战开发》一书中,读到了 cookies 池维护及代理池维护部分,对于 cookies 池的动态管理,书中使用了 flask 框架+redis 数据库部署在云端服务器,通过调用 API 接口来随时获取随机 cookies,想问下在实际工作中,有经验的大佬会在云端部署方便开发,还是直接在爬虫项目中本地提取?

    4、除打码平台之外,各位在项目过程中有尝试过机器学习破解验证码的经验么?

    5、让各位比较有成就感的网站有哪些呢?

    6、爬虫工程师的下一级技术层面的发展呢?

    7、最想了解的就是项目工作中出现过最大的问题,以及解决办法。

    8、没错,我就是培训出来缺工作经验的秃头年轻人。( web 前端+django+flask+spider+数据分析+AI )

    9、反爬措施大多数已经有所了解。目前认为最困难的就是 JS+ajax 加密的请求。这种时候只知道用 selenium 这种解决方法。想知道各位遇到的神级反爬都是什么样的,如果遇到有过解决的思路或者方法么?

    10、在过滤数据时,布隆过滤器的使用是不是为优选?在分布式爬虫中,去重应该已经实现,那么布隆过滤器的是在什么情况下会使用?

    11、爬虫的编写会考虑算法和数据结构么?

    12、爬虫框架的开发,在五大模块的基础上,实现了分布式,数据增量,请求增量,断点续爬,去重等基础条件下,接下来的开发方向有没有经验分享?

    各位大佬抽几个回答就好,感激不尽。如果我还能想到什么问题,我会发部上来,希望能得到各位的建议和指教。

    第 1 条附言  ·  2018-08-21 09:16:11 +08:00
    估计是沉了。看看现在有没有人看得到...
    1 条回复    2018-08-22 09:10:38 +08:00
    Linxing
        1
    Linxing  
       2018-08-22 09:10:38 +08:00 via iPhone
    简单回答下
    1.不多 15W 条记录左右
    2.目前爬虫只有我一个人在做
    3.没用 cookie 池 有维护一个代理池 但是部署在本地服务器
    4.打码平台方便 成本相对低一点 毕竟遇到变态的验证吗 还是少
    5.不便透露
    6.我比较菜 今年想做一下分布式
    9.AJAX 目前我只能用模拟的方式
    11.算法我用的不多 数据结构倒是要好好设计下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1127 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:55 · PVG 06:55 · LAX 14:55 · JFK 17:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.