V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linhanqiu
V2EX  ›  Python

有关于目前正在做的新闻数据流程的架构-构想,大神指教

  •  
  •   linhanqiu · 2018-02-24 10:19:02 +08:00 · 2310 次点击
    这是一个创建于 2464 天前的主题,其中的信息可能已经有所发展或是发生改变。
    9 条回复    2018-02-24 15:37:44 +08:00
    w0000
        1
    w0000  
       2018-02-24 10:40:34 +08:00
    同在做这块相关的,怎么还要申请权限才能看
    daydaydayup
        2
    daydaydayup  
       2018-02-24 10:45:26 +08:00
    为什么看你的博客还要权限 0 0!搞不懂了.
    linhanqiu
        3
    linhanqiu  
    OP
       2018-02-24 10:56:31 +08:00
    数据组业务流程架构

    需求以及产量
    硬件需求
    服务器需求
    爬虫服务器
    图片服务器
    新闻日产量
    爬虫 200w+
    用户编辑 1w+
    机器智能编辑 1w+
    新闻数据流程
    数据源
    数据来源分类
    爬虫
    爬虫类型分类
    通用搜索引擎爬虫:使用基于 Nutch 框架的爬虫框架
    自定义爬虫:使用基于 asyncio、aiohttp 的爬虫框架
    爬虫分布式架构
    模式选择:分布式采用自治模式,爬虫服务器之间互相可以通信,通过保存一张服务器列表来记录其他服务器位置
    爬虫种子调度管理
    调度介质:redis 集群作为 url 暂时存储的载体,redis 之间互相通信,使用 hash 槽来保证高可用性一致性
    去重保证:使用 k 分型 bloomfilter 替代普通的 bloomfilter 过滤器作为过滤器搭配 redis
    种子状态保证(确保种子的有效性):
    种子分级制度
    人工编辑
    机器自动编写
    注意问题
    数据采集

    注意问题
    数据清洗(验证数据正确唯一性)
    数据重复清洗
    对于新闻重复清洗原则
    文本指纹去重:k-shingle -jarccard 系数计算 shingle 向量的相似度,向量空间,耗资源
    文本指纹去重:Simhash 指纹-采用 hamming distance 来计算两个指纹之间的相似度,海量文本找出只有几位不同的,将 32 指纹分段以空间换时间
    空间向量特征去重:无法应对海量文本两两去重
    注意问题
    数据存储(关系型数据库、对象存储)

    注意问题
    数据变形(批处理、并行计算)

    注意问题
    数据分析(机器学习、数据仓库)

    注意问题
    业务场景(日志分析,商品推荐、舆情分析、价格预测)

    注意问题
    项目管理以及部署
    项目迭代管理
    项目测试
    项目部署
    爬虫实例采用 docker 部署,使用 Google 的 Kubernetes 来管理

    项目监控
    实时监控
    离线监控
    linhanqiu
        4
    linhanqiu  
    OP
       2018-02-24 11:11:24 +08:00
    @w0000 https://www.v2ex.com/t/432146#reply0 不好意思,这个应该可以了
    shaobin
        5
    shaobin  
       2018-02-24 11:58:01 +08:00
    哈哈 动态拨号 要了解一下吗?
    linhanqiu
        6
    linhanqiu  
    OP
       2018-02-24 12:46:23 +08:00
    @shaobin 是 ASDL 吗,之前有了解过,不过没有太多使用,听说动态拨号破解 ip 限制很不错
    linhanqiu
        7
    linhanqiu  
    OP
       2018-02-24 13:15:11 +08:00
    @shaobin 不过未来希望使用阿里云的弹性 ip 觉得应该能够替代这个
    shaobin
        8
    shaobin  
       2018-02-24 15:31:35 +08:00
    @linhanqiu 嗯 adsl, 对于 IP 封锁比较严格的目标站比较有用。如果是新闻类型估计不需要动态 IP。( wuxianip 点 com )
    linhanqiu
        9
    linhanqiu  
    OP
       2018-02-24 15:37:44 +08:00
    @shaobin 确实,新闻类站点还是反爬做的还是一般,有 header 封锁算是好的了,
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   909 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:54 · PVG 05:54 · LAX 13:54 · JFK 16:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.