#存储

存储引擎是数据库核心部件之一，YashanDB通过不同的存储引擎适应不同的应用场景，以获得面向在线交易场景的高效事务处理能力，面向实时分析场景的事务与分析均衡能力，和面向海量稳态数据分析场景的高性能。

基于不同的存储引擎，YashanDB支持的表类型有HEAP表，TAC表和LSC表。

HEAP Table：行存表，主打OLTP场景。
TAC Table (Transaction Analytics Columnar Table) ：列存表，主打实时分析场景。
LSC Table (Large-scale Storage Columnar Table)：列存表，主打海量稳态数据的交互式分析场景。

YashanDB将数据库的存储空间划分为若干表空间，表空间之间互相隔离。每个表空间采用段页式或者对象式（用于LSC稳态数据）管理存储空间。

所有的段页式表空间均包含数据段、索引段、回滚段等不同类型的段，每种段采用数据区和数据块的方式管理空间，使得空间使用更加灵活，管理更加高效，使用率更高。

# HEAP存储架构

为实现事务的ACID，YashanDB对HEAP表采用了段页式的存储管理，和Checkpoint+redo的持久化机制，并提供堆表、B+树索引等基本的数据结构，且堆表和B+树索引均实现了MVCC多版本能力，可以保证一致性读和一致性写。

Tablespace

表空间，可以给表、索引实体对象分配空间的容器。

Datafile

数据文件，一组数据文件组成一个Tablespace，在Tablespace空间不足时，可以扩展数据文件的大小，或者增加新的数据文件。

Segment

数据段，数据库中的表、索引等对象实体，都通过Segment来承载。

Extent

数据区，Segment从Tablespace申请空间时，最小粒度就是一个Extent，一般包括若干个Block。YashanDB使用Extent Map对Segment内的Extent进行管理。

Block

数据块，数据库的数据是按Block来组织的，数据需要持久化时，Block是最小的磁盘IO单位。

Row

数据行，用户增删改查操作的记录，存储时按Row的格式组织。Row格式里描述了每个列字段的长度，支撑包含变长列（VARCHAR、LOB等）字段的数据行存储。

# TAC存储架构

TAC表数据存储在支持实时业务的可变列式存储区，每个列的数据集中存储，并实现in-place update，提升列查询速度下，又可实现快速更新；可变列式存储区采用段页式管理（MCOL格式），最小访问数据单元为Block。

Tablespace

表空间，可以给表、索引实体对象分配空间的容器。

Datafile

数据文件，一组数据文件组成一个Tablespace，在Tablespace空间不足时，可以扩展数据文件的大小，或者增加新的数据文件。

Segment

数据库中，表、索引等对象实体，以及列存表的每个列，都是通过Segment来承载。

Extent

Segment从Tablespace申请空间时，最小粒度就是一个Extent，一般一个Extent包括若干个Block。

Block

数据库的数据是按Block来组织的，数据需要持久化时，Block是最小的磁盘IO单位。通常数据库的Block大小与操作系统的Block大小为倍数关系，YashanDB默认Block大小为8K。

Batch

列存存储按列格式来组织，每个列的一批记录组成一个Batch，作为数据读取的基本单位。

Table/Partition Segment

记录TAC表的总体入口信息。

Entry Block：入口Block，记录TAC表的相关统计信息、Slice的空闲位图及辅助信息。
Segment Entry Block：记录表按列逻辑分割后的所有Segment信息。
Column Entry Block：记录所有列的元数据信息。

Tran Mgmt Segment

事务管理段，通过Segment中的Xslot管理各Fix Col Block和Var Col Block上执行的事务，保证数据写入的事务一致性。

Fix Col Segment

每一个定长列独立划分为一个Segment，内部包含若干Block。

Var Col Segment

针对变长列，将进行列转行存储，支撑变长列的事务处理能力。

# LSC存储架构

LSC表数据在写入时存储在可支持实时业务的可变列式存储区，以适应业务写入的实时性，并依据特定规则在后台转换到稳态数据区，稳态数据通过数据排序，稀疏索引，下推过滤等实现海量数据的高性能查询。数据的后台转换对业务层的查询请求透明，查询请求可分别从实时数据区和稳态数据区获取数据做合并，并满足事务要求。

可变列式存储区和稳态数据区的数据均按照表或分区进行组织，对应着Active Slices和Stable Slices两部分，其中Active Slices采用段页式存储（MCOL格式），Stable Slices采用对象存储（ SCOL格式）。访问数据时，根据Entry Block查询到表数据组织情况，再通过对应的Slices进行下一级数据扫描。

Tablespace：可以给表数据分配空间的容器。

Table/Partion Segment：记录表的总体入口信息。

Entry Block：入口Block，记录表数据的Slice分布情况、统计信息及辅助信息。
Active Slice Entry：记录Active Slice元数据信息。
Stable Slice Entry：记录Stable Slice元数据信息。

Active Slice：记录可变数据的信息，当可变数据达到阈值后将自动转为稳态数据。

Segment Entry Block：记录Slice内按列逻辑分割后的所有Segment信息。
Column Entry Block：记录所有列的元数据信息。
Tran Mgmt Segment：事务管理段，通过Segment中的Xslot管理各Fix Col Block和Var Col Block上执行的事务，保证数据写入的事务一致性。
Fix Col Segment：每一个定长列独立划分为一个Segment，内部包含若干Block。
Var Col Segment：针对变长列，将进行列转行进行存储，支撑变长列的事务处理能力。

Stable Slice：记录稳态数据信息。

Row group：Stable数据先进行分组，分组后再按列进行拆分，查询时根据Slice、Row group、Column的元数据信息完成所有数据的快速定位扫描。
Column extent：每个数据分组按列切割，通过Column extent和Block的顺序进行组织存储。Column extent作为最小IO单元和压缩单元在列式访问中尽可能利用IO能力。

在计算过程中，通过背景线程转换、并行计算、排序、条件下推、稀疏索引、IO优化、压缩等技术完成数据的高效存储、扫描。

Transform in backgroup：支持分批次进行可变/稳态数据自动转换，数据写入时以Active Slice结构支撑快速导入以及新鲜可变数据的高效扫描；数据稳定后通过背景线程分批转换为Stable Slice存储。
Parallel Execution：Slice级别的并行计算。
Sorting Data：Row group内和Row group间支持数据排序，提高数据的扫描速度。
Filter Pushdown：支持Slice和Row group级别的过滤下推，减少数据的内存加载次数。
IO suitable Unit：Row group内，每列Column extent将考虑磁盘连续扫描情况进行数据就近存储优化，减少磁盘IO读。
Compression Unit：Row group内，数据进行独立存储后，通过压缩算法减少存储空间消耗。

# 变长列存储结构

# 行式变长列存储

在update某一个行式变长列字段时，系统采取如下几种不同的存储方式：

in-place update

列字段长度在更新前后未发生变化，可以定位到改列字段位置，直接进行数据替换（与定长列字段处理方式一致）。

in-page update

列字段长度在更新后变小时，将行变短，在原位置重组行；变大时，将行变长，页面free空间足够时在本页面重组行。

行迁移与行链接

列字段长度在更新后变大时，将行变长，且页面free空间不足够在本页面重组行，此时该行数据将被完整迁移到其他的页面。
当变长的行超过了整个页面能容纳的大小时，该行数据将被拆分到多个页面存储，且多个页面通过链接以标识一个行。

# 列式变长列存储

YashanDB对列式变长字段（如LOB、VARCHAR等）的存储采用行列结合技术，每列单独拥有一个Heap Segment，每列每一行数据采用一个Row存储，如下所示：

变长字段的数据存储沿用YashanDB的Heap行存机制，实现对列式数据的高效删改，同时，通过Rowid逻辑映射结构实现行列对应和Batch分批事务处理，保持列式数据的批量增查优势。

# 原位更新

传统的分析型数据库采用列式存储时，对插入和更新都是在末端插入一个新值，并标记被替代的数据。YashanDB与之不同的是实现了原位更新（in-place update），这样的好处是避免在存储区域产生"墓碑"，避免空间膨胀与垃圾扫描，极大地提升存储和检索数据的效率。

# 持久化

持久化即将段页式逻辑结构的内存数据按物理结构落盘，永久化保存。

redo

在数据库中对数据的修改都必须记录redo重做日志，用于故障恢复，主备复制等，YashanDB采用WAL（Write Ahead Log）机制，对数据修改操作先记录redo，批量落盘，以减少直接将数据落盘对IO性能的影响。

Checkpoint

内存中修改的数据不会直接落盘，而是由YashanDB的Checkpoint机制来完成，这些数据基于redo记录的顺序被加入到队列中，当Checkpoint被触发时，写进程将执行读取数据并插入到数据文件中，同时更新队列和释放redo空间。

系统采取多线程写、IO合并、IO排序等优化手段提升落盘效率。同时，YashanDB引入双写机制，避免在服务器掉电等意外场景下可能出现的半写问题，严格保证数据完整性。

SCOL storage

LSC表的MCOL格式数据在通过背景线程的转换压缩后，会变成SCOL格式，持久化存储到对应的数据桶（DataBucket，对象存储路径，DataBucket支持指定本地磁盘或云端存储），数据桶中包含存放数据的切片（Slice）文件。