关于大量数据导出到 excel 或 csv 实现方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2082 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近有个需求，需要将 PostgreSQL 里的数据导出到 excel 里（或者 csv ），可能出现的情况有 3 种：

1.导出单张表某个时间段的数据
2.导出单张的全部数据
3.导出所有表的全部数据（一张表一个文件存储）

现在问题是如果导出的数据太大的话会 OOM，如何解决呢？

现在想预估一个安全行数，在导出的行数达到安全行数后就保存这个 excel，然后再从数据库读取再追加到这个 excel 里。疑问是再次向这个文件里追加数据的时候这个文件里之前已有的数据会载到内存里来吗？

有做过的前辈分享下经验吗？

语言：go

公司内部项目，所以用户量很少，基本上就几个人使用

导出

行数

EXCEL

数据

46 条回复 • 2019-08-16 16:51:24 +08:00

taotaodaddy

2019-08-15 11:47:45 +08:00 via Android

为什么不自己试试呢

myself659

2019-08-15 12:01:47 +08:00

有时间我可以将这个功能加上
https://github.com/myself659/csvdata
但是一般 csv 不会这么大

myself659

2019-08-15 12:03:47 +08:00

对于大大程序分片一下就可以了
都那么大导出了一个 csv 中
不存在这种需求
反过来想一想都在一个文件里面，哪得用什么电脑才能打开 csv

wanganjun

2019-08-15 12:11:37 +08:00 via iPhone

pg 有导出数据到 csv 的 sql 命令，还支持重定向数据到外部程序的功能，可以实现导出到压缩文件的功能

auser

2019-08-15 12:14:41 +08:00

csv 有个 65535 限制的问题 .....

这个问题应该是 Go 的内存管理与第三方解析库的问题。数据量太大的话，要自己从“底层”实现了。

我这边处理的 xlsx 对应数据表量级在 30 万左右，几百兆的数据库文件。导出功能都是按日期筛选的，还没遇到要考虑内存的程度。

建议直接花钱加内存解决，相比解决这个问题的工钱是小钱了。如果真到了加内存都解决不了的数据量，我觉得文件使用者也没有电脑能处理这么大的 excel 文件吧。

zjj2008se

2019-08-15 12:26:18 +08:00 via Android

为什么不试试神奇的 pandas 呢？直接从数据库里面取出来存成你想要的各种格式

x2ve

2019-08-15 12:29:23 +08:00

哟哟切克闹 etl 来一套

hoyixi

2019-08-15 12:31:24 +08:00

很多数据库，本身就支持把数据备份成 csv

littlewing

2019-08-15 12:32:11 +08:00 via iPhone

mysql 可以直接一条 sql 导出的
话说你是 select * from table ？

imherer

2019-08-15 12:49:31 +08:00

@littlewing 嗯，因为是全字段都需要的。

liprais

2019-08-15 13:03:25 +08:00

pgdump 之后再处理呗
多读点文档没啥坏处
或者你可以用 spark 开多个 jdbc 链接做导出

encro

2019-08-15 13:46:06 +08:00

读数据，一次 10 万以内的读；
写 csv，一行一行写；
根本就不占用内存。

Kaiux

2019-08-15 14:13:41 +08:00

https://github.com/alibaba/easyexcel
阿里巴巴开源的, 虽然是 Java 做的,但是思路可以参考
我本地导出 10 万数据都是 5 秒以内, 没有 OOM
希望可以帮到你

wayne1027

2019-08-15 14:18:23 +08:00

@auser #5 csv 没有行数限制吧？哪来的 65535 ？几百年前的 xls?

maierhuang

2019-08-15 14:29:29 +08:00

copy 命令了解一下就是不知道怎么和 go 结合

Michaelssss

2019-08-15 14:34:41 +08:00

1G 左右 CSV，excel 2016 就已经打不开了。。我不确定你说大量要多大。。。

SbloodyS

2019-08-15 14:38:51 +08:00

copy 导出 csv，Excel 一个 sheet 最多 104W，按小于等于 104W 行的数量分片处理为多个 sheet 就好
追加数据就新开一个 sheet 来存
之前试过 1 亿行数据十几分钟就好了，很快的，不过一般 Excel 10 个左右的满 sheet 打开就慢到爆炸了

imherer

2019-08-15 14:40:02 +08:00

@maierhuang 嗯，我也搜到了这个命令，直接写成 sql 语句在程序里执行就行，还挺好用的

augustheart

2019-08-15 15:06:14 +08:00

虽然我不懂 go，但是 csv 不就是文本？按文本处理你想怎么追加都行。

maierhuang

2019-08-15 15:08:18 +08:00

@imherer 那能用 copy 就完美解决

auser

2019-08-15 15:15:12 +08:00

@wayne1027

文件格式本身不限制，但身边环境大家常用的 Numbers.app 不支持打开 65535 行的 csv.

最麻烦的是这个格式在与 Windows 系统交换时经常遇到乱码问题。目前统一使用 xlsx.

imherer

2019-08-15 15:20:07 +08:00

@auser 对，我现在也遇到了，在 Mac 下导出 csv 中文正常，windows 下导出就乱码…… 头疼……

imherer

2019-08-15 15:31:09 +08:00

@maierhuang 嗯，但是好像不支持参数
COPY (SELECT * FROM test LIMIT $1) to '/absolute path/file_name.csv' with csv header
直接报错

auser

2019-08-15 15:31:15 +08:00

@imherer

哈哈，对于文本格式的文件，还有 BOM 这个可能出现的“小坏蛋”呢。

几年前刚接触新团队的时候，现有成员全部用的 Windows 开发。Windows 的 git 有个换行符自动转换功能，可是很多人安装 git for windows 的时候一直下一步或者压根就不知道这个问题，加上 git 图形版客户端与编辑器各用各的，源码文件跟 git diff 没办法看。我还遇到一个项目内的某些源码文件竟然编码不唯一的神奇问题，很诡异，也很好奇怎么会出现这种情况。这个大型 C++项目在 VS 下有时候编译不过去，最后发现也是文件编码问题造成的。

这是纯文本文件固有的问题。

所以有统一的跨平台格式，优先选择它可能会少遇到些绊脚石。

Vegetable

2019-08-15 15:36:40 +08:00

xls 65535,xlsx 大概是一百来万行,所以这两个基本就不考虑了,没等 oom 本身就已经装不了这么多数据了.
只能是 csv.csv 可以 stream 进去,完全不存在 oom 的问题.

gamexg

2019-08-15 15:44:25 +08:00

csv 格式省心，打开文件一行一行的写，内存不会炸。

没用过 pg@go，查了下也是支持 stream 的： https://github.com/go-pg/pg/issues/82

gamexg

2019-08-15 15:57:47 +08:00

@gamexg #26 确认了，lib/pg 也是默认就是游标方式工作，直接用 go 的 sql 标准库就可以处理大量数据。

mengdodo

2019-08-15 16:00:33 +08:00

pandas 就问你要多大

habicat

2019-08-15 16:12:08 +08:00

pandas+1

lmingzhi08

2019-08-15 16:47:25 +08:00

感觉可以先将数据表 copy to 导出一个 csv 文件，csv 本身是一个文件文件，然后可以按行数切割文件了

http://burnignorance.com/linux-tips-and-tricks/splitting-a-large-csv-files-into-smaller-files-in-ubuntu/

To split large CSV (Comma-Separated Values) file into smaller files in Linux/Ubuntu use the split command and required arguments.

split -d -l 10000 source.csv tempfile.part.

Here “ 10000 ” indicates that each new file contains 10000 records,you change it to any number you want to, the smaller files would have that number of records. The new files are created with numbers suffixed. For example in this case the file names are tempfile.part.00.csv, tempfile.part.01.csv and so on.

changdy

2019-08-15 20:32:44 +08:00

我也在好奇 excel 用什么语言做导出比较合适.
楼上有提到过阿里巴巴的开源项目.
但是个人感觉从命名到来看代码并不美观.并且封装的也不够完整.
想问下 V2EX 的各位道友用什么语言的那个项目比较合适?

@imherer 友情提示 win offcie 默认是 gbk... 这方面都不如 wps.

abcbuzhiming

2019-08-15 23:34:19 +08:00

@Michaelssss excel 是存在最大行限制的。所以如果打算导出为 excel，无论是 xls 还是 xlsx 都得考虑最大行限制

danmu17

2019-08-16 02:42:17 +08:00

不出意外的话你的需求就是 pandas 典型的应用场景。

loading

2019-08-16 07:03:44 +08:00 via Android

先查总条数
然后循环分批读写，每次一万行写一个 csv
然后根据总天数得到你 csv 个数，你可以预设到一个 unix 时间戳建立的文件夹，叫 1.csv 2.csv

最后是打压缩包下载还是 copy 拼起来就看你们了。

windedge

2019-08-16 07:09:01 +08:00

用 petl, 对文本文件(csv), petl 内存占用很低, 写法也很简单:

```
import petl as etl
import psycopg2
connection = psycopg2.connect('dbname=example user=postgres')
table = etl.fromdb(connection, 'SELECT * FROM example')
etl.tocsv(table1, 'example.csv')
```