1
wellsc 2017-02-24 16:22:19 +08:00 1
pandas 就够了
|
2
xiaoye 2017-02-24 16:27:26 +08:00 1
中间不要把文件落地,直接 reduce.
|
3
qfdk 2017-02-24 16:28:34 +08:00 via iPhone 1
我是 scala 党 思路是这样的 你把你的大文件分割成 10 分 开十个机器 这样去读速度会快很多
|
4
guolingbing OP @wellsc 本来我觉得也是啊,奈何这关系到一个课程作业...
|
5
guolingbing OP @xiaoye 中间结果必须要存的,因为将来要反复 reduce 这些东西,类似搜索,我的担心是存 mongodb 里是不是对 spark 的性能有很大影响
|
6
guolingbing OP @qfdk 好的,我再看看 spark 的 dataframe~看能不能把中间结果用它的 df 存
|
7
wh0syourda66y 2017-02-24 16:39:35 +08:00 1
少年,这些我都用过,没有什么复杂的数据结构是 spark dataframe 或者 spark-sql 处理不了的
|
8
xiaoye 2017-02-24 16:40:32 +08:00 1
开始的是时候,把文件上传到 HDFS 。比较简单的办法是把「中间结果」 encode 一下,存到 HDFS 。
二次读取完了直接 decode 一下,然后处理就好了。 |
9
qfdk 2017-02-24 16:40:42 +08:00 via iPhone 1
@guolingbing 反正中间就是 df 然后随便转换就行读文件耗时 中间网络传输也是瓶颈
|
10
miaoever 2017-02-24 16:41:03 +08:00 1
中间为什么要手动存呢,如果你想保存中间结果,不是用 spark 的 cache 比较好么?
|
11
guolingbing OP @wh0syourda66y 我也很想用啊,也很苦恼
|
12
guolingbing OP @xiaoye 嗯,我也是这样想的
|
13
guolingbing OP @miaoever spark 新手,我也很苦恼的,存 mongodb 的方便在于其他地方要调用这些比较方便,
|
14
guolingbing OP @qfdk 感觉 pyspark 的文档有些复杂,虽然感觉也能草草用用,但总感觉不靠谱
|
15
likuku 2017-02-24 17:01:12 +08:00 1
反复存取, mongodb 小心耗尽硬盘
|
16
qfdk 2017-02-24 17:06:39 +08:00 via iPhone
@guolingbing 是的 所以用的 Scala 版本 另外可以考虑用 zeppelin 进行数据分析
|
17
mind3x 2017-02-25 00:03:50 +08:00 1
业界人士建议,如果一定要存中间结果,存成 parquet 。
|