Python 该如何操作文本入库至 Hbase

2016-11-16 10:00:18 +08:00
 f8281113
Python 操作文本入库至 Hbase,文本样式如下; Python 的正则该如下写读取 url docno contenttitle content 这四个字段,并写入到 hbase 的一个表中。。。谢谢!!
-----------------------------------------------------------
<doc>
<url>http://gongyi.sohu.com/20120724/n348878190.shtml</url>
<docno>5fa7926d2cd2f0ea-34913306c0bb3300</docno>
<contenttitle>爸爸为女儿百万建幼儿园 消防设施3年仍不过关</contenttitle>
<content></content>
</doc>
<doc>
<url>http://gongyi.sohu.com/s2008/sourceoflife/</url>
<docno>f2467af22cd2f0ea-34913306c0bb3300</docno>
<contenttitle>中国西部是地球上主要干旱带之一,妇女是当地劳动力...</contenttitle>
<content>同心县地处宁夏中部干旱带的核心区, 冬寒长,春暖迟,夏热短,秋凉早,干旱少雨,蒸发强烈,风大沙多。主要自然灾害有沙尘暴、干热风、霜冻、冰雹等,其中以干旱危害最为严重。.
由于生态环境的极度恶劣,导致农村经济发展缓慢,人民群众生产、生活水平低下,靠天吃饭的被动局面依然存在,同心,又是国家级老、少、边、穷县之一…[详细]</content>
</doc>
<doc>
<url>http://gongyi.sohu.com/20120612/n345424232.shtml</url>
<docno>0dadd5002ed2f0ea-34913306c0bb3300</docno>
<contenttitle>思源焦点公益基金救助孩子:永康</contenttitle>
<content>不满一岁的永康是个饱经病痛折磨的孩子,2011年7月5日出生的他,患有先天性心脏病、疝气,一出生便被遗弃。2012年1月8日,才5个月大的永康被发现呼吸困难</content>
<doc>
...........
2526 次点击
所在节点    Python
7 条回复
stamaimer
2016-11-16 12:37:36 +08:00
xpath ,有个库叫 lxml
rainysia
2016-11-16 12:47:48 +08:00
1, py 怎么取这文本就不说了吧

2, 用 HBase thrift 写 或者 openTSDB
f8281113
2016-11-16 14:11:45 +08:00
有没有哪位使用过 bulk load
wmttom
2016-11-16 14:13:02 +08:00
pyquery 写 css 选择器比写 xpath 更简单点
ubear1991
2016-11-16 15:49:37 +08:00
thrift
Wien
2016-11-16 18:10:47 +08:00
bulk load 适合一次性导入到大量数据,而不适合持续导入。如果用 bulk load ,可以先用 python 读取数据到文本文件( csv 等)再通过 hadoop 的 MR 将数据转化成 HFile ,最后用 bulk load 直接导入 Hbase 。
wellsc
2016-11-16 18:20:58 +08:00
pyspark

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/320842

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX