大家好,我做了个小玩意儿。
基于 ClickHouse 引擎的 Python 嵌入式数据库 chDB 。由于 ClickHouse 的强大功能,chDB 支持在几乎所有的数据文件格式上运行 SQL ,输出 60 多种格式。
目前,chDB 仅支持 macOS ( x86_64 和 ARM64 )和 Linux 上的 Python 3.7+。
pip install chdb
目前 chDB 只支持query
函数,用于执行 SQL ,返回想要的格式数据。
import chdb
res = chdb.query('select version()', 'CSV'); print(str(res.get_memview().tobytes()))
chdb.query('select * from file("data.parquet", Parquet)', 'CSV')
chdb.query('select * from file("data.csv", CSV)', 'CSV')
chdb.query('select * from file("data.parquet", Parquet)', 'Dataframe')
1
kongsys 2023-04-26 07:35:07 +08:00
一楼抢个沙发,顶一下
|
2
daxin945 2023-04-26 17:06:47 +08:00
已经 star 加油
|
3
ayogo 2023-05-02 05:34:16 +08:00 via Android
有种东西叫做 duckdb ,和你做的这个功能基本上一样
|
4
auxten OP @ayogo 你说的对,其实 dask ,data.table ,dplyr ,pandas ,(py)datatable ,spark ,ClickHouse ,Polars ,Arrow ,DuckDB 都可以说是类似的东西。无非是用 Python 在数据上跑 SQL
|