哈希索引

June 6, 2021 · 1 min · Gray King

Table of Contents

索引
优化磁盘占用
实现中面临的问题
追加的好处
局限性

索引

先来看一个世界上由 Bash 实现的最简单的数据库实现：

#!/bin/bash
db_set() {
  echo "$1,$2" >> database
}

db_get() {
  grep "^$1," database | sed -e "s/^$1,//" | tail -n 1
}

这种数据库通过追加文件尾部的方式高效写入，许多数据库内部都是用日志，日志是一个仅支持追加更新的数据文件。但是 db_get 的性能会随着数据量的变大而下降，为了解决这个问题就需要引入新的数据结构： 索引 。

索引是基于原始数据而派生而来的额外数据结构：适当的索引可以加速读取查询，但是回减慢写速度。

key-value 索引通常使用 hash map 来实现，最简单的索引策略：保存内存中的 hash map，把每个键一一映射到数据文件中特定的字节偏移量。

优化磁盘占用

将日志分解成一定大小的段，当文件达到一定大小时就关闭它，并将后续写入到新的段文件中。
然后可以在这些段上执行压缩：丢弃重复的键，并且只保留每个键最近的更新。
同时将变小后的多个段在后台合并在一起（段在写入后不再会进行修改所以不会出现竞争）。
合并完成后将读取请求切换到新的合并段上，然后可以安全的删除旧的段文件。

实现中面临的问题

文件格式：二进制。
删除记录：通过特殊的墓碑标记。
崩溃恢复：Bitcask 通过将 hash map 快照存储到磁盘。
部分写入：文件校验丢弃损坏的部分。
并发控制：只有一个写线程。

追加的好处

顺序写性能高。
并发控制和崩溃恢复简单。
段合并避免文件碎片化。

局限性

大量的键存储在内存可能导致内存耗尽，同时需要处理哈希冲突
区间查询效率不高。

Links to this note

流处理系统

发送事件流消息系统生产者速度比消费者快：丢弃消息、将消息缓存在队列、激活背压。节点崩溃或者暂时历险，是否会有消息丢失？生产者与消息系统之间的直接消息传递 UDP 组播：广泛应用于金融股票无代理消息库：ZerroMQ 和 nanomsg StatsD 和 Brubeck 使用 UDP 传递消息 HTTP、RPC 接口消息代理参见：AMQP/JMS 风格的消息代理。也称消息队列。消息对比与数据库对比多个消费者确认和重传机制分区日志参见：基于日志的消息代理。数据库与流保持系统同步变更数据捕获变更数据捕获（Change Data Capture，CDC）记录了写入数据库的所有更改，并以可复制到其他系统的形式来提取数据。如果在写入时立即将更改作为一种流来发布，那么 CDC 就更有趣来。实现变更数据捕获解析复制日志，并将解析的内容发送到事件流中进行 replay。初始快照 replay 日志占用空间过大，需要进行截断，截断之前的进行初始快照保存。日志压缩参考哈希索引。对变更流的 API 支持数据库开始支持将变更流作为标准接口。事件溯源一种在领域驱动设计社区中开发的技术，与 CDC 最大的区别在于事件溯源在不同抽象层次上应用了将所有对应用程序状态的更改保存为更改事件日志： CDC 中：应用程序以数据可变方式来操纵数据库，从数据库中提取较低级的变更日志，从而确保从数据库提取写入顺序与实际写入顺序相匹配。写入数据库的程序不需要知道 CDC 正在发生。事件溯源中：应用程序的写入逻辑是基于写入事件日志的不可变事件构建的。事件存储仅支持追加，不鼓励甚至禁止更新或删除操作。事件旨在反映在应用程序级别所发生的事情，而不是低级别的状态改变。专门的数据库 Event Store 来支持使用事件溯源的应用程序。从事件中导出当前状态：真正对用户有意义命令和事件命令经过校验后转化为事件。状态，流与不可变性流处理事件中的数据写入数据库、缓存、搜索索引或类似的存储系统，提供给客户端查询。通过某种方式将事件推送给用户，如电子邮件、短信等。处理一个或多个输入流产生过一个或多个输出流。流处理适用场景复杂事件处理复杂事件处理（Complex Event Processing，CEP）尤其适用需要搜索特定的事件模式。实现：Esper、IBM Info Sphere Streams、Apama、TIBCO StreamBase 和 SQLstream。 ...

排序字符串表：SSTables

SSTables 通过按照键的顺序存储在日志段文件中来解决哈希索引面临的一些问题。它要求每个键在每个合并的段文件中只能出现一次（通过压缩确保）。对比哈希索引的日志段优点合并段更加高效，即使文件大于可用内存。类似于归并排序算法中使用的方法。并发读取多个输入段文件，比较每个文件的第一个键，把最小的键拷贝到输出文件，并重复。解决多个段文件重复：保留最新的值，因为每个段包含在某段时间内写入数据库的所有值，意味着肯定有一个值比其他所有值更新。基于键有序的特性可以采用稀疏索引避免内存中包含所有键的索引。将一定范围内的所有键存储到一个块中，便于需要请求范围内多个 key-value，降低磁盘 I/O。构建和维护保证顺序内存中痛哦红黑树或者 AVL 树支持任意顺序插入并以排序后的顺序读取它们。写入时，将其添加到内存中的平衡树数据结构中，成为内存表。内存表大于某个阈值（MB级别），将其作为 SSTable 文件写入磁盘。写入同时，写入可以继续添加到一个新的内存表实例中。处理请求顺序：首先从内存表中查找键 -> 最新的磁盘段文件 -> 次新磁盘段文件，以此类推。后台进程周期性执行段合并与压缩，合并多个段文件并丢弃被覆盖或着删除的值。崩溃处理为了避免数据库崩溃最近的写入（在内存表中尚未写入磁盘）将会丢失的问题：在磁盘上保留单独的日志，每个写入都会立即追加到该日志。并且无需排序。内存表写入 SSTable 时，丢弃相应的日志。使用此技术的数据库 LevelDB RocksDB 类似的 Cassandra HBase

数据存储与检索

存储引擎哈希索引日志结构存储引擎：LSM-Tree 面向页的存储引擎：B-trees 对比 LSM-Tree 和 B-trees 项目 LSM-Tree B-trees 备注性能写入更快，吞吐更高读取更快具体场景上需要进行基准测试存储可变大小的段，通常 nMB 固定大小的页，传统 4KB 写入追加，写入更多不利于 SSD 新的数据覆盖磁盘上旧的页并发控制后台合并进行原子替换锁存器其他索引结构在索引中存储值多列索引全文索引和模糊索引在内存中保存所有内容优点：可以支持更复杂的数据结构，而无需考虑数据存储结构。事务处理与分析处理事务处理：OLTP 分析处理：OLAP 对比属性 OLTP OLAP 主要读属性基于键，每次查询返回少量记录对于大量记录进行汇总主要写属性随机访问，低延迟写入用户的输入批量导入（ETL）或事件流典型使用场景终端用户，通过网络应用程序内部分析师，为决策提供支持数据表征最新的数据状态（当前时间点）随着事件而变化的所有事件历史数据规模 GB 到 TB TB 到 PB 数据仓库星型与雪花型分析模式星型模型也称为维度建模。列式存储列压缩

索引#

优化磁盘占用#

实现中面临的问题#

追加的好处#

局限性#

Links to this note

索引

优化磁盘占用

实现中面临的问题

追加的好处

局限性