Spark 如何将一个 RDD 分成多个 RDD？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Hortonworks Sandbox

› Intel Hadoop Distribution

› Treasure Data

这是一个创建于 2537 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在有这么一个需求，原始数据的格式是

小明语文成绩，数学成绩，英语成绩

所以 RDD 的格式就为

JavaPairRDD<String, String> chengji; 其中 chengji 数据结构为<小明，[语文成绩，数学成绩，英语成绩]>

现在想把这一个 RDD 拆分成 3 个 RDD

即 JavaPairRDD<小明，语文成绩>

JavaPairRDD<小明，数学成绩>

JavaPairRDD<小明，英语成绩>

这个应该怎么写请教，用 flatmap 可以做么？谢谢！

rdd

小明

成绩

chengji

15 条回复 • 2018-03-30 08:56:53 +08:00

zhusimaji

2018-03-29 23:15:30 +08:00 via iPad

不可以啊，flatmap 就是先 map 后 flat 展开，你要是拆开三个 rdd，最简单的就是 map 三次

liucudliucud

2018-03-29 23:19:08 +08:00

不用拆，放在一起处理

capric

2018-03-29 23:41:35 +08:00 via Android

sparksql 支持 array explode
select expode(items) as item

anonymoustian

2018-03-29 23:54:33 +08:00

@zhusimaji 但是我是举个例子。。就是这个个数是不同的。每个 RDD 是 N 个，N 各不相同

anonymoustian

2018-03-29 23:55:59 +08:00

@capric 这个在 hive 里是一个字符串处理的，也可以这么做么

anonymoustian

2018-03-29 23:56:13 +08:00

@liucudliucud 但是要用这个做 reducebykey

capric

2018-03-29 23:58:17 +08:00 via Android

@anonymoustian 可以的
explode 支持 split

zjxzhqq

2018-03-29 23:59:04 +08:00 via Android

map 就可以了

zjxzhqq

2018-03-29 23:59:29 +08:00 via Android

升级吧，用 ds

capric

2018-03-30 00:02:47 +08:00 via Android

@capric
@anonymoustian
explode 字符串
explode(split(tags ",")) as tag

explode 数组
explode(tags) as tag

anonymoustian

2018-03-30 00:10:08 +08:00

@capric 非常感谢已经成功了，谢谢。另外我很好奇有没有其他的做法呢？

capric

2018-03-30 00:18:05 +08:00 via Android

@anonymoustian 函数级别也支持
df.withColumn("tag", explode($"tags"))

zhusimaji

2018-03-30 07:30:51 +08:00 via iPhone

@anonymoustian。。。你用 sparksql explode 也只是生成 dataframe，最后做成单独的 rdd，还是要转换

liucudliucud

2018-03-30 08:55:46 +08:00 via Android

把数据 flatten 再详细写 reduce 方法呗
可以详细说下需求
类似于 name type score

liucudliucud

2018-03-30 08:56:53 +08:00 via Android

拆 rdd 这种一个两个还可以，多了效率很低的，强行串行了