LevelDB总览

结构

MemTable：内存数据结构，具体实现是 SkipList。接受用户的读写请求，新的数据会先在这里写入。
Immutable MemTable：当 MemTable 的大小达到设定的阈值后，会被转换成 Immutable MemTable，只接受读操作，不再接受写操作，然后由后台线程 flush 到磁盘上 —— 这个过程称为 minor compaction。
Log：数据写入 MemTable 之前会先写日志，用于防止宕机导致 MemTable 的数据丢失。一个日志文件对应到一个 MemTable。
SSTable：Sorted String Table。分为 level-0 到 level-n 多层，每一层包含多个 SSTable，文件内数据有序。除了 level-0 之外，每一层内部的 SSTable 的 key 范围都不相交。
Manifest：Manifest 文件中记录 SSTable 在不同 level 的信息，包括每一层由哪些 SSTable，每个 SSTable 的文件大小、最大 key、最小 key 等信息。
Current：重启时，LevelDB 会重新生成 Manifest，所以 Manifest 文件可能同时存在多个，Current 记录的是当前使用的 Manifest 文件名。
TableCache：TableCache 用于缓存 SSTable 的文件描述符、索引和 filter。
BlockCache：SSTable 的数据是被组织成一个个 block。BlockCache 用于缓存这些 block（解压后）的数据。

写逻辑

将key-value封装成WriteBatch；
循环检查当前DB的状态，确定策略(DBImpl::MakeRoomForWrite()):
如果当前L0层的文件数目达到了kL0_SlowdownWritesTrigger(8)阈值，则会延迟1s写入，该延迟只发生一次；
如果当前memtable的size未达到阈值write_buffer_size(默认4MB)，则允许写入；
如果memtable的size已经达到阈值，但immutable memtable仍然存在，则等待compaction将其dump完成；
如果L0文件数目达到了kL0_StopWritesTrigger(12)，则等待compaction memtable完成；
上述条件都不满足，则memtable已经写满，并且immutable memtable不存在，则将当前memetable置成immutable memtable，产生新的memtable和log file，主动触发compaction，允许该次写。
设置WriteBatch的SequenceNumber;
先将WriteBatch中的数据写入log(Log::AddRecord());
然后将WriteBatch的数据写入memetable，即遍历WriteBatch解析出key/value/valuetype，Delete操作只写入删除的key，ValueType是KTypeDeletion，表示key以及被删除，后续compaction会删除此key-value。
更新SequenceNumber（last_sequence + WriteBatch::count()）。

为了提高写入效率，LevelDB会把多个写线程提交的key-value封装成一个WriteBatch一次性写入。WriteBatch的结构如图3中WriteBatch所示。

用户的数据写入到log日志后，还要写入一个memtable的结构中，LevelDB利用skiplist实现了memtable，在memtable内key是有序的。immutable memtable与memtable结构是一样的，只提供读不允许写入。用户的数据已经封装在WriteBatch中，在插入memtable时，需要遍历WriteBatch,decode每个key-value。在memtable中，key-value的格式如下：

读逻辑

如果ReadOption指定了snapshot，则将snapshot的Sequence Number作为最大的Sequence Number，否则，将当前最大的Sequence Number(VersionSet::last_sequence_number)作为最大的Sequence Number。
在memtable中查找(Memtable::Get())。
如果在memtable中未找到，并且存在immutable memtable，就在immutable memtable中查找(Memtable::Get())。
如果(3)仍未找到，在sstable中查找(VersionSet::Get())，从L0开始，每个level上依次查找，一旦找到，即返回。
首先找出level上可能包含key的sstable，FileMetaData结构体内包含每个sstable的key范围。
L0的查找只能顺序遍历每个file_0,因为L0层的sstable文件之间可能存在重叠的key。在L0层可能找到多个sstable。
非L0层的查找，对file_[i]基于FileMetaData::largest做二分查找即可定位到level中可能包含key的sstable。非L0上sstable之间key不会重叠，所以最多找到一个sstable。
如果该level上没有找到可能的sstable,跳过，否则，对要进行查找的sstable获得其Iterator，做seek()操作。
seek()成功检查有效性，依据ValueType判断是否是有效的数据：
kTypeValue: 返回对应的value数据。
kTypeDeletion: 返回data not exist。

sstable文件由data block、meta block、metaindex block、index blcok和footer组成。默认大小2MB。

data block: key-value存储部分，按key有序排列,data block内部的格式如图7左侧。LevelDB采用了前缀压缩，每16个- key-value记录一次重启点restart。data block默认大小4KB。
meta block：存储key-value的filter,默认是bloom filter。
metaindex blokc: 指向meta block的索引。
index block:指向data block的索引。
footer: 索引metaindex block 和 index block。

如果数据不在内存中的组件中，那就需要在磁盘的sstable文件中查找了，基于B+树思想的存储引擎，利用索引可以直接定位到具体的哪个磁盘块，而LSM树的存储引擎需要遍历多个sstable文件才能确定数据在哪个磁盘块，读性能自然就不如B+树了。在介绍如何在磁盘上查找含有指定Key的sstable之前先介绍一个重要的数据结构：

struct FileMetaData {}

1、先定位key可能在哪些sstable文件中。这里的定位利用了上面的FileMetaData结构体里的smallest、largest字段，如果在这个范围里，该文件的FileMetaData加入一个vcetor tmp保存，每一层有很多的sstable文件，而且key可能存在多个版本，所以tmp里面可能存在很多sstable文件，如何确定最新的版本在哪个文件里呢？查找的原则应该是先从最新的sstable文件中查找，对于L0层，LevelDB做了优化，这里要说明一下，sstable文件是用uint64_t number命名的，而且越新的数据number越大，所以vector tmp按照FileNumber排序。非L0层的sstable文件之间key不会重叠，所以可以利用二分查找定位sstable。

2、在第一步定位了key可能存在的sstable之后，第二步需要定位key在sstable文件的哪个data block里面，图9的sstable格式里有一个重要的模块：index block。index block存储了data block的索引，为了加速读性能，leveldb也做了优化，把经常访问的sstable的index block缓存在cache中，关于cache的知识点后续会介绍。利用index block可以快速定位key可能存在哪个data block中。如何确定key到底在不在data block呢，LevelDB利用bloom filter，如果通过bloom filter得出key不在此data block中，那么该key 肯定不在此data block中，则data not found；如果通过bloom filter得出key在此data block中，还不能完全肯定在此data block中，还需要去遍历该data block

结构#

写逻辑#

读逻辑#

结构

写逻辑

读逻辑