Log Structured-Merge(LSM) Tree 和 B+ 树相对应，适用于写多读少的 OLTP 数据库，本文介绍其基本数据结构。

应用场景

在 OLTP(Online Transaction Process) 中，MySQL 采用 B+ 树，其特点是可以快速读取数据、支持事务，但其写入性能较差。而某些 OLAP(Online Analyse Process) 场景中，写入性能要求很高，而读取/修改性能相对要求低，这时可以考虑用 LSM-Tree，它非常适合保存 Key-Value 类型的数据，因此几乎是 NoSQL 的必选方案，事实上 Hbase、Cassandra、Leveldb、RocksDB 在底层都应用了这种数据结构。

基本结构

为什么 LSM-Tree 写入可以这么快？因为它充分利用了”磁盘顺序写入性能高”的特性。

LSM-Tree 基本结构
- 分层
  - 最上层是 0 层，完全放在内存中，可以以某种 OrderedMap 形式保存。磁盘上存储 0 1 2 … k 层，以顺序有序的形式保存，其中 0 是直接由内存刷盘得来的。
    - 0 层在内存中一般会有两个区域：可变区和只读区，新数据可写入可变区。当需要写入磁盘时，将可变区变为只读区，然后刷盘，同时新建空的可变区继续接收新数据。当发生 0 层读取时，要先读查可变区再查只读区。
  - 磁盘上，同一层可以有多个文件保存，但是 Key 在文件中是有序的。
  - 当某层数据量满了时，就要向下一层 Merge，Merge 时会利用元素的有序性，进行 Merge，只要O(n)的时间和空间复杂度
- 有序压缩
  - 数据在各层存储始终是有序的，这样就方便进行 Merge，无需重新排序
  - 同时这种有序的结构，也方便进行二分查找、范围查找，快速查找元素
- 顺序写入
  - 在每个变更请求到来时，会先以 WAL(Write Ahead Log)的形式快速写入磁盘，这样避免数据丢失，不影响性能
  - 在 Merge 时，由于数据是有序的，可以直接整块的顺序写入硬盘，效率极高
  - 由于分层结构，数据可能同时存在于高层和低层，最新数据是在较高层的，所以读取时也要从高到低查找
辅助结构
- WAL(Write Ahead Log) 预写 Log 是磁盘顺序写入的，比如 MySQL 的 Binlog 等，可以在主机掉电后用于恢复数据。
- 后台 Merge Merge 动作是后台执行的，不影响新数据写入，所以性能不受影响。
- BloomFilter 提高查询效率由于数据分为多层保存，所以读取数据需要访问多层，效率较低。可以在每层建立一个 BloomFilter 以便快速判断元素是否存在，虽然存在小概率碰撞问题，但总体效率大大提高了。

Algorithm LSM-Tree

应用场景

基本结构

相关问题