系统热点 | Taking Smart Notes With Org-mode

应用层解决

即使通过基于关键字哈希值分区和基于关键字区间分区等策略解决了大部分热点问题，但是极端情况下依然会出现热点，比如社交媒体的热点时间都会导致热点，只能通过应用层解决，一个简单的技术：

关键字开头或结尾添加一个随机数，两位随机数就可以将关键字的写操作分布到 100 个不同的分区上；

读取就必须从所有的 1000 个关键字中读取数据然后进行合并；

通过额外的元数据标记哪些关键字进行了特殊处理。

由于对读取造成的额外开销，所以通常只有对少量的热点关键词附加随机数才有意义。

为什么不用取模？节点数发生变化时，会导致很多关键字需要做节点数据迁移，会大大增加再平衡的成本。固定数量的分区创建远超实际节点数的分区数量，然后再为每个节点分配多个分区。新加入节点从现有的节点上匀走几个分区，直到分区再次达到平衡。删除节点采取和上面相反的过程。优点分区总数量不变，也不会改变关键字的分区映射关系。唯一需要调整的分区与节点的映射关系。分区和节点的映射关系调整可以逐步完成。缺点分区数量需要数据库创建时确定，并不能更改动态分区分区数据增长超过一个可配参数的阈值（HBase 10GB），它就拆分为两个分区，相反则合并相邻的分区。过程类似B-trees 的分裂操作。每个分区总是分配一个节点，一个节点可以承载多个分区。分区分裂将其中的一半转移到其他节点以平衡负载。优点分区数量可以自动适配数据总量。空数据库可以配置初始分区解决少量数据集就一个分区避免系统热点（HBase 和 MongoDB）按节点比例分区使分区数与集群节点数成正比关系（Cassandra 和 Ketama），就是每个节点具有固定数量的分区。当节点数不变时，每个分区的大小与数据集大小保持正比增长关系。新加入节点随机选择固定数量的现有分区进行分裂，然后拿走这些分区的一半数据量。优点较大的数据可以使每个分区的大小保持稳定。缺点存在不公平分裂。

每一条数据都属于特定的分区，每个分区都是一个小型数据库。目的提高扩展性，分散大的数据集和查询负载。目标将数据和查询负载均匀的分步在所有节点上。如果分布不均匀会出现负载倾斜和系统热点。数据分区与数据复制结合数据复制每个分区在多个节点都有副本，进行冗余提高可用性。键-值数据的分区避免系统热点最简单的方法是将记录随机分配给所有节点上，缺点是：没办法知道数据保存在哪个节点上，所以读取时需要查询所有节点。基于关键字区间分区基于关键字哈希值分区负载倾斜与系统热点分区与二级索引二级索引不能唯一标识一条记录，比如查询颜色为红色的汽车。二级索引带来的主要挑战是它们不能规整的映射到分区中。有两种方法来支持对二级索引进行分区：基于文档分区的二级索引基于词条的二级索引分区分区再平衡动态再平衡策略自动与手动再平衡操作请求路由策略客户端可以连接任意节点，并由节点做转发不在当前节点的分区请求。由路由层来充当分区感知的负载均衡器。客户端直接感知分区和节点分配关系，客户端直连目标节点。做出路由决策的组件 Zookeeper gossip 协议

应用层解决#

Links to this note

应用层解决