POLARDB

by 夏泽民 Nov 6, 2021

POLARDB的存储可以做到按照使用量来收费，真正做到使用多少就收多少钱，计费周期是一小时
在我们的控制台上，有五种空间统计，分别是磁盘空间使用量，数据空间使用量，日志空间使用量，临时空间使用量和系统文件空间使用量。

磁盘空间使用量是后四者之和，数据空间使用量包括用户创建的所有库，mysql库，test库，performance_schema库，日志空间使用量包括redolog，undolog，ibdata1，ib_checkpoint(存储checkpoint信息)，http://innodb_repl.info(存储切换信息，物理复制信息等)，临时空间使用量包括socket文件，pid文件，临时表(大查询排序用)，审计日志文件，系统文件空间使用量包括错误日志，慢日志，general日志以及主库信息(用于构建复制关系)。虽然有四部分空间使用量，但大多数主要被数据空间和日志空间占用，数据空间比较好理解，主要就是表空间聚集索引和二级索引的占用量，但是这个日志空间很多用户不是很了解，常常提上来的问题是，为什么我的日志空间占了100多个G，而数据空间就几个G，这里简单解释一下。

redolog，主要用来构建物理复制，同时也可以被当做增量日志来支持还原到时间点/克隆实例的任务，类似原生的binlog，文件名按顺序递增，主节点产生日志，只读节点/灾备节点应用日志，同时后台管控任务会定时上传redolog(只要发现新的就立即上传)并且定时删除(目前一小时触发一次删除任务)，具体大小与DML总量有关。

edolog日志占用
redolog日志，由于对数据的修改都会记录redolog，所以对数据修改的越快，redolog产生的速度就会越快，而且上传OSS(保留下来做增量日志)的速度有限，所以在实例导数据阶段，会导致redolog堆积，当导入完成后，redolog会慢慢上传完然后删除，这样空间就会降下来，但是不会完全降为0。具体原因需要介绍一下：目前所有规格，redolog大小都为1G，被删除的redolog不会马上被删除，而是放入一个缓冲池(rename成一个临时文件)，当需要新的redolog时候，先看看缓冲池里面还有没有可用的文件，如果有直接rename成目标文件，如果没有再创建，这个优化主要是为了减少创建新文件时的io对系统的抖动，缓冲池的大小由参数loose_innodb_polar_log_file_max_reuse控制，默认是8，如果用户想减少缓存池的文件个数，就可以减少这个参数从而减少日志空间占用量，但是在压力大的情况下，性能可能会出现周期性的小幅波动。所以当写入大量数据后，即使redolog都被上传，默认也有8G的空间用作缓存。注意，调整这个参数后，缓冲池不会立刻被清空，随着dml被执行，才会慢慢减少，如果需要立即清空，建议联系售后服务。

https://zhuanlan.zhihu.com/p/108431268

POLARDB 是阿里云自主研发的下一代云原生分布式数据库，100%兼容MySQL、PostgreSQL等开源数据库，高度兼容Oracle语法，使用RDS服务的客户不需要修改应用代码，可以一键迁移到POLARDB，体验更大的容量，更高的性能，更低的成本，和更灵活的弹性。

作为基于计算与存储分离架构的新一代云原生数据库，POLARDB的计算节点里主要实现了 SQL 解析和优化、以及查询并行执行与无锁高性能事务处理，计算节点之间通过高吞吐的物理复制协议同步内存状态。

而存储层基于分布式文件系统PolarFS，通过Parallel Raft共识算法实现多数据副本间的强一致性，在存储层进行存储引擎的多版本页管理来支持全集群跨计算节点的Snapshot Isolation隔离级别。

01基于计算与存储分离的先进架构

计算节点与存储节点之间通过理解数据库语义的智能互联协议将filter和projection等算子从计算层下推到存储层执行。为了保证事务和查询语句的低延迟，同时降低计算节点之间状态同步的延迟，计算节点和存储节点之间使用25Gb高速RDMA网络互联，采用Bypass kernel的用户态网络协议层进行通讯。

基于计算与存储分离的先进架构，POLARDB可以从1个计算节点（2个CPU核）弹性伸缩到16个计算节点（最高达到1000核）的事务扩展能力，单实例存储容量从10GB按使用量弹性扩展到100TB。

计算节点与存储节点分离的架构设计给POLARDB带来了实时的水平扩展能力。由于单个数据库实例的计算能力有限，传统的做法是通过搭建多个数据库副本来分担压力，从而提供数据库Scale out 的扩展能力。

然而，这种做法需要存储多份全量数据，并且频繁同步日志数据造成了过高的网络开销。此外，在传统数据库集群上，增加副本需要同步所有增量数据，这带来了同步延迟上涨的问题。

POLARDB将数据库文件以及Redo log 等日志文件存放在共享存储设备上，确保主实例和所有副本共享同一份全量数据和增量日志数据。节点间只需要同步内存里的元数据信息，通过MVCC机制的保证，就能支持跨节点读取数据的一致性，非常巧妙地解决了主实例和副本之间的数据同步问题，大大节约了跨节点的网络开销，降低副本间的同步延迟。

02提升事务性能 POLARDB内核层面优化揭秘

为了提高事务性能，POLARDB 在内核层面进行了大量优化。把一系列性能瓶颈用无锁（lockless）算法以及各种并行优化算法进行改造，减少甚至消除各种锁之间的相互冲突，大大增加了系统的scalability 能力。

同时，我们依托处理双十一这种大规模高并发场景下的经验, 在 POLARDB 上实现了对库存等热点数据进行优化的功能。对于简单重复的查询，POLARDB支持直接从存储引擎获取结果，从而减少了优化器及执行器的开销。

此外，进一步优化已经高效的物理复制。比如，我们在重做日志加了一些元数据，以减少日志解析CPU开销. 这个简单优化减少了60%日志解析时间。我们也重用一些数据结构，以减少内存分配器的开销。

POLARDB运用了一系列算法来优化日志应用，比如只有在buffer pool中的数据页面才需要日志应用。同时我们也优化了page cleaner and double write buffer，大大减少这些工作的成本. 这一系列优化使得在性能上 POLARDB 远超 MySQL ，在sysbencholtp_insert等大量并发写入的基准评测中达到最高6倍于MySQL 的性能。

03支持并行查询（Parallel Query）

为了提高子查询和join等复杂查询（例如TPC-H基准评测）的能力，POLARDB的查询处理器支持并行查询（parallel query），可以将一个查询同时在多个或所有可用CPU核上进行执行。并行查询能够将一个查询任务（当前只支持SELECT语句）划分为多个子任务，多个子任务可以并行进行处理，整体采用Leader-Worker的并发模型。

Leader线程负责生成并行查询计划，协调并行执行过程的其他组件，并行执行计划会包括并行扫描、多表并行连接、并行排序、并行分组、并行聚集等子动作。

Message queue是leader线程和worker线程的通讯层，worker线程通过message queue向leader线程发送数据，而leader线程也会通过message queue向worker线程发送控制信息。

Worker线程负责真正的执行任务。Leader线程解析查询语句生成并行计划，然后同时启动多个worker线程进行并行任务处理，为了高效的执行查询，Worker上的执行不需要进行再次优化，而是直接从Leader上来拷贝生成好的计划分片。这需要实现执行计划树上所有节点的拷贝。

worker线程在进行扫描，聚集，排序等操作后将中间结果集返回给leader，leader负责收集来自worker的所有数据集，然后进行适当的二次处理（比如merge sort，二次group by 等操作），最后将最终结果返回给客户端。

https://zhuanlan.zhihu.com/p/108442296

https://blog.csdn.net/u014730658/article/details/109724450

PolarDB的存储是由一组Chunk Server通过RDMA硬件连接在一起(PFS技术)，对上层提供块设备接口，而计算节点通过RDMA网络将存储挂载到计算节点中，从上往下看，底层的Chunk对于计算是完全透明的，目前PolarDB提供的最大规格还是限制在100T，主要是考虑一般业务中很少有能超过的oltp业务数据容量，同时过大的存储的确还是会存在一定的运维问题，所以这里的上限限制只是软限制，基于PFS的构成原理，我们其实可以近似认为PFS可以为计算节点提供无限容量的存储。

在支持了海量存储之后，使超大规模的表成为了可能，但由于单机版MySQL时代的大表容量只停留在理论上，没有真正投入生产，所以在出现史无前例的大表后，性能方面的问题才开始逐渐浮出水面，包括且不限于索引分裂，海量更新时数据刷盘等问题。

例如：

大表索引B-tree一定会出现比较一般表高很多层的情况，此时进行SMO操作时，索引上的锁会影响系统并发，我们将Btree 改进成了Blink-Tree，可以以最小代价完成索引层的维护，大大减小SMO的时间和性能成本。
redo落盘时，原生MySQL的方案是尽量使用顺序写以提高情况IO效率，但由PFS的架构可以看出，分布式的写不会带来性能提升，反而会造成热点写的问题，我们将redo改为分桶的方式在不同chunk上分散写，充份利用了分布式存储的优势。

https://zhuanlan.zhihu.com/p/372422876

https://segmentfault.com/a/1190000017195693

https://blog.csdn.net/weixin_34402408/article/details/89612709

Category mysql