V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linhanqiu
V2EX  ›  Python

有关于目前正在做的新闻数据流程的架构-构想,大神指教!!

  •  
  •   linhanqiu · 2018-02-24 11:10:53 +08:00 · 2530 次点击
    这是一个创建于 2455 天前的主题,其中的信息可能已经有所发展或是发生改变。
    19 条回复    2018-02-24 17:28:14 +08:00
    newbier
        1
    newbier  
       2018-02-24 13:02:42 +08:00
    小白,看得一脸盲,呵呵。在我眼里你就是大神了。
    linhanqiu
        2
    linhanqiu  
    OP
       2018-02-24 13:16:42 +08:00
    @newbier 没有没有,本小白只是构想,还没完成呢
    liudanking
        3
    liudanking  
       2018-02-24 14:00:12 +08:00 via iPhone
    研究一下 推酷?
    pheyer
        4
    pheyer  
       2018-02-24 14:13:59 +08:00
    想 copy 一个头条吗,感觉没那么容易啊
    lz 文章排版不错,是用 Evernote 内部的编辑器排版的吗?
    linhanqiu
        5
    linhanqiu  
    OP
       2018-02-24 14:28:45 +08:00
    @liudanking
    听过,可以试试
    linhanqiu
        6
    linhanqiu  
    OP
       2018-02-24 14:29:37 +08:00
    @pheyer 哈哈,对,是 Evernote,国内的印象笔记不能分享,所以用了国外版本
    w0000
        7
    w0000  
       2018-02-24 15:22:40 +08:00
    楼主是要在公司做还是个人感兴趣做? @linhanqiu
    linhanqiu
        8
    linhanqiu  
    OP
       2018-02-24 15:35:42 +08:00
    @w0000 现在在带一个小队,主要业务量到达一定程度了,想要构想一下未来的大架构,
    w0000
        9
    w0000  
       2018-02-24 15:56:23 +08:00
    不知道楼主的 数据源 多不多哈,爬虫采集的话,200w+ 量不是很大,有需要登录或者动态渲染的页面要抓的吗?如果有的通用爬虫都搞不定,nutch 感觉不好用,可能爬虫用 python 会开发起来好一些,数据清洗之后可能不需要关系数据库存,我这边也是公司在做类似的东西,金融舆情监控系统,跟你写的这个有一些相似的地方,有机会可以交流下
    linhanqiu
        10
    linhanqiu  
    OP
       2018-02-24 16:01:11 +08:00
    @w0000 好的,好的,那太好了
    Xrong
        11
    Xrong  
       2018-02-24 16:03:06 +08:00
    文档 404 ???
    linhanqiu
        12
    linhanqiu  
    OP
       2018-02-24 16:04:36 +08:00
    @w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈,
    linhanqiu
        13
    linhanqiu  
    OP
       2018-02-24 16:05:36 +08:00
    ZSeptember
        15
    ZSeptember  
       2018-02-24 16:42:39 +08:00
    感觉什么都没说啊。。
    以前做过类似的吧,资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。
    需要登录的就每个都有单独做了,这个反爬太容易了。
    用 kafka 做流处理,还是很不错的。
    linhanqiu
        16
    linhanqiu  
    OP
       2018-02-24 16:59:38 +08:00
    @ZSeptember 多谢大神指教
    linhanqiu
        17
    linhanqiu  
    OP
       2018-02-24 17:01:42 +08:00
    @ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗
    ZSeptember
        18
    ZSeptember  
       2018-02-24 17:16:49 +08:00
    @linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已,还没有到什么架构这个程度。
    需要登录的当然别人想做反爬就可以做,你换 IP 都没用啊,现在很多需要手机号,如果会封号,成本很高的。
    Kafka 在这种业务中可以作为架构基础,解耦爬虫,清洗,统计分析业务,爬虫就只管爬数据,把爬取到的数据打到 Kafka 就不用管了,后续的什么服务都可以很方便的接入。
    linhanqiu
        19
    linhanqiu  
    OP
       2018-02-24 17:28:14 +08:00
    @ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5959 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:30 · PVG 10:30 · LAX 18:30 · JFK 21:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.