腾讯基于 PostgreSQL 历时 8 年研发的 HTAP 分布式数据库 TBase 开源了，对数据库有兴趣的同学可以去了解体验一下

jackdu

2019 年 11 月 14 日

TBase 是腾讯基于 PostgreSQL 历时 8 年研发的 HTAP 分布式数据库，能同时提供高性能的 OLTP 和 OLAP 能力，原名 PostgreSQL-XZ，2017 年更名 TBase。

TBase 开源之所以引人关注，是因为其已在微信支付、保险、公安、税务、电信等行业解决方案中大量应用。

什么是 TBase
TBase 是一个提供写可靠性，多主节点数据同步的关系数据库集群平台。你可以将 TBase 配置一台或者多台主机上，TBase 数据存储在多台物理主机上面。数据表的存储有两种方式，分别是 distributed 或者 replicated，当向 TBase 发送查询 SQL 时，TBase 会自动向数据节点发出查询语句并获取最终结果。

TBase 采用分布式集群架构，该架构分布式为无共享(share nothing)模式，节点之间相应独立，各自处理自己的数据，处理后的结果可能向上层汇总或在节点间流转，各处理单元之间通过网络协议进行通信，并行处理和扩展能力更好，这也意味着只需要简单的 x86 服务器就可以部署 TBase 数据库集群

jackdu

2019 年 11 月 14 日

喜欢的点个小星星

dbskcnc

2019 年 11 月 14 日

不知具体是基于 Pg 那个版本，pg12 提升了不少

jackdu

2019 年 11 月 14 日

介绍链接 Base64：aHR0cHM6Ly9tcC53ZWl4aW4ucXEuY29tL3Mvb2h4a3FaRmNqSTE2VHBQdzRSYXMyQQ==

jackdu

2019 年 11 月 14 日

@dbskcnc 没有具体哪个版本是在开源的 PostgreSQL 基础上自己有所修改

areless

2019 年 11 月 14 日

这不是未来的方向。未来的方向是用 gpu 执行 sql 处理显存里的载入数据。cpu 只提供载入数据的通道及整合运算资源的最后输出。sql 执行速度加快了，kv 缓存便不需要了，构建开始转变，前端通过加密直接传 sql，后端提供 sql 本身，多么烂的程序都能单机跑上亿日 pv。你这种只有腾讯自己能用。

xupefei

2019 年 11 月 14 日

@areless 你这个目前还是小说里的应用…

azh7138m

2019 年 11 月 14 日

@xupefei 什么小说敢这么写？可以介绍一下吗？

iPhoneXI

2019 年 11 月 14 日

和 tidb 比哪个好用

areless

2019 年 11 月 14 日

@xupefei 那个，16 年搞 gpu 数据库开源的都有七八家。商业的很多很多了。目前该领域还没有真正的巨头出现。其实只要 mod 显卡数，单机 gpu 分布式构架真的是超牛逼了，而且现在显存又大~gpu 跟显存的通道无敌大。mapd，BlazingDB，PG-Strom~~~gpuexdsql 自己编译下就能把 sqlite 跑在 gpu 里面。

palfortime

2019 年 11 月 14 日

@areless 现在数据库的瓶颈不是存储吗

areless

2019 年 11 月 14 日

@azh7138m 一个 12 显卡 12g 显存的单机能提供上百 g 高速查询缓冲区。每个显卡是独立执行查询，是单显卡执行 sql 的 12 倍。现在一张英伟达运算卡是普通高配主机数据库速度的 20 倍左右。即便是笔记本的渣独显这个方面也快 cpu~2 倍以上。
@palfortime sql 慢导致 nosql 啊缓存大量涌现。缓存分布式各种的兼容方案，要是 sql 不慢了，就不用去折腾构架了，储存只要每隔几分钟增减量快照 dump 到外部储存就可以了，普通企业上百 g 显存用完很难~~~业务直接写成 sql，完全跑在运算卡里~~~cpu 内存主要处理 http 之类的请求~~~这将是未来主流构架。

mtrec

2019 年 11 月 15 日

@areless gpu 可以提升性能不假但 io 还是瓶颈几分钟 dump 一次数据丢失了怎么办

optional

2019 年 11 月 15 日

@areless nosql 的优点是分布式，不但性能可以类似于线性增长，而且可以多写。

des

2019 年 11 月 15 日

@palfortime
同问，数据库瓶颈不是在存储吗？

xupefei

2019 年 11 月 15 日

@areless GPU 有没有用估计要看运行什么查询。GPU 优势在并行，但是并行写肯定要牺牲 ACID。在只读不写的 data lake 场景下 GPU 加速应该会更快，但一旦写数据，GPU 估计性能雪崩。
PCI 总线传输数据没 CPU 到内存快吧？

xupefei

2019 年 11 月 15 日

@areless 另外，分布式不只是因为 SQL 慢才搞的，HA 也是非常重要的原因。

palfortime

2019 年 11 月 15 日

@areless 先不说你的显 nei 存数据库性能有多厉害，楼主发的 tbase 怎么也不像是解决 100gb 级别数据的问题。用买 12 显卡的服务器的钱来买普通服务器，装个单机的 MySQL 或者 PostgreSQL，怎样也能解决 100gb 级别的数据吧。

areless

2019 年 11 月 15 日

@xupefei 有内存一半速度的，pci-e 挺快的，以后会更快~而且越来越灵活，你想想一下 usb 的灵活性，插张卡速度就升级了。甚至能实现热拔插。写不慢的，因为固态硬盘走的 pci-e 才跑 1gb 每秒，但是显卡是可以跑满 32gb 的。比普通固态硬盘快 16 倍左右。pcie 通道只比普通内存慢一半，而且显卡读是处理好的数据，相当于内存型 nosql 的速度却能快速执行各种 sql。PG-Strom 是 PostgreSQL 的 gpu 辅助~~~可以试试

crclz

2019 年 11 月 15 日

@areless 你还是没搞清楚何时使用 mongo 这类的 nosql，何时要使用传统的 sql。基于脆弱的知识，一切推论都是白搭（有点像民科）

sql 属于万精油型：由于其粒度小，所以干小规模的事情，都不会很差。
mongo 因为其数据粒度大，所以适合分布式。并且，由于现在的大部分业务场景中，数据的粒度都很大，所以即使单机，mongo 也有速度优势。

何谓粒度大？ sql 的粒度很小，要获取一个业务操作所需要的数据，需要到很多不同的地方取数据。磁盘随机 IO 负担重，甚至一次操事务会涉及好几台机器，甚至是分布在不同地域的机器。mongo 则相反，在设计文档结构的时候可以挑选适合自己业务的数据粒度，可以将高频使用的东西聚合在一起，这样大多数事务只会涉及到一个文档。

内存再快，遇到网络延迟，尤其是 sql 需要从几个不同的服务器上面取数据、加锁、判断每份数据的改变是否传播到了特定数量的节点，响应时间和吞吐量都很差。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/619632

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.