基于 ClickHouse 引擎的 Python 嵌入式数据库 chDB

大家好，我做了个小玩意儿。

基于 ClickHouse 引擎的 Python 嵌入式数据库 chDB 。由于 ClickHouse 的强大功能，chDB 支持在几乎所有的数据文件格式上运行 SQL ，输出 60 多种格式。

特性

进程内 SQL OLAP 引擎，由 ClickHouse 提供支持
无需安装 ClickHouse
使用 python memoryview 最大限度地减少从 C++ 到 Python 的数据复制
输入和输出支持 Parquet 、CSV 、JSON 、Arrow 、ORC 和更多

安装

目前，chDB 仅支持 macOS （ x86_64 和 ARM64 ）和 Linux 上的 Python 3.7+。

pip install chdb

用法

目前 chDB 只支持query函数，用于执行 SQL ，返回想要的格式数据。

import chdb
res = chdb.query('select version()', 'CSV'); print(str(res.get_memview().tobytes()))

使用 Parquet 或 CSV 作为输出

chdb.query('select * from file("data.parquet", Parquet)', 'CSV')
chdb.query('select * from file("data.csv", CSV)', 'CSV')

Pandas 格式输出

chdb.query('select * from file("data.parquet", Parquet)', 'Dataframe')

Demos

Serverless Query Demo

Benchmark

ClickBench of embedded engines

Documentation

For SQL syntax, please refer to ClickHouse SQL Reference

ayogo

2023-05-04 22:54:52 +08:00

@auxten 我是指 duckdb 和大佬做的都是这种基于文件的进程内 SQL 引擎。我对 spark 不是很清楚，我们目前主要是 ray+pandas+clickhouse/citus 这样做一些 olap 场景的数据分析。最近也在关注类似于 duckdb 和大佬这种 chdb 的这种嵌入式处理模式，想把数据源从 clickhouse 切到 s3 的 parquet 文件上。很早之前也看了大佬的项目，已 star 加油(›´ω`‹ )