之前没接触过 spark,这就要用 pyspark 处理几百个 G 的 csv 文件。有几点疑惑吧
1
liprais 2017-05-26 16:03:06 +08:00 1
1.spark 会启动多个进程来并行的处理这些文件,资源够的话会比你用 python 单进程的处理快。
2.编码问题需要用 encoding 这个参数来指定正确的编码。列不同的问题 spark 会自动合并,不存在的记录会被赋予 null,应该不会有问题。不过不同的列数一般代表是不同的数据,处理之后放到一起似乎不是好的实践。 |