V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
f8281113
V2EX  ›  Python

Python 该如何操作文本入库至 Hbase

  •  
  •   f8281113 · 2016-11-16 10:00:18 +08:00 · 2615 次点击
    这是一个创建于 2913 天前的主题,其中的信息可能已经有所发展或是发生改变。
    Python 操作文本入库至 Hbase,文本样式如下; Python 的正则该如下写读取 url docno contenttitle content 这四个字段,并写入到 hbase 的一个表中。。。谢谢!!
    -----------------------------------------------------------
    <doc>
    <url>http://gongyi.sohu.com/20120724/n348878190.shtml</url>
    <docno>5fa7926d2cd2f0ea-34913306c0bb3300</docno>
    <contenttitle>爸爸为女儿百万建幼儿园 消防设施3年仍不过关</contenttitle>
    <content></content>
    </doc>
    <doc>
    <url>http://gongyi.sohu.com/s2008/sourceoflife/</url>
    <docno>f2467af22cd2f0ea-34913306c0bb3300</docno>
    <contenttitle>中国西部是地球上主要干旱带之一,妇女是当地劳动力...</contenttitle>
    <content>同心县地处宁夏中部干旱带的核心区, 冬寒长,春暖迟,夏热短,秋凉早,干旱少雨,蒸发强烈,风大沙多。主要自然灾害有沙尘暴、干热风、霜冻、冰雹等,其中以干旱危害最为严重。.
    由于生态环境的极度恶劣,导致农村经济发展缓慢,人民群众生产、生活水平低下,靠天吃饭的被动局面依然存在,同心,又是国家级老、少、边、穷县之一…[详细]</content>
    </doc>
    <doc>
    <url>http://gongyi.sohu.com/20120612/n345424232.shtml</url>
    <docno>0dadd5002ed2f0ea-34913306c0bb3300</docno>
    <contenttitle>思源焦点公益基金救助孩子:永康</contenttitle>
    <content>不满一岁的永康是个饱经病痛折磨的孩子,2011年7月5日出生的他,患有先天性心脏病、疝气,一出生便被遗弃。2012年1月8日,才5个月大的永康被发现呼吸困难</content>
    <doc>
    ...........
    7 条回复    2016-11-16 18:20:58 +08:00
    stamaimer
        1
    stamaimer  
       2016-11-16 12:37:36 +08:00 via iPhone
    xpath ,有个库叫 lxml
    rainysia
        2
    rainysia  
       2016-11-16 12:47:48 +08:00
    1, py 怎么取这文本就不说了吧

    2, 用 HBase thrift 写 或者 openTSDB
    f8281113
        3
    f8281113  
    OP
       2016-11-16 14:11:45 +08:00
    有没有哪位使用过 bulk load
    wmttom
        4
    wmttom  
       2016-11-16 14:13:02 +08:00
    pyquery 写 css 选择器比写 xpath 更简单点
    ubear1991
        5
    ubear1991  
       2016-11-16 15:49:37 +08:00
    thrift
    Wien
        6
    Wien  
       2016-11-16 18:10:47 +08:00
    bulk load 适合一次性导入到大量数据,而不适合持续导入。如果用 bulk load ,可以先用 python 读取数据到文本文件( csv 等)再通过 hadoop 的 MR 将数据转化成 HFile ,最后用 bulk load 直接导入 Hbase 。
    wellsc
        7
    wellsc  
       2016-11-16 18:20:58 +08:00 via Android
    pyspark
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5478 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:32 · PVG 09:32 · LAX 17:32 · JFK 20:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.