Phoenix使用SALT_BUCKETS创建预分区

phoenix | 2019-09-30 09:26:23

1. 基础知识
Phoenix Salted Table是phoenix为了防止hbase表rowkey设计为自增序列而引发热点region读和热点region写而采取的一种表设计手段。通过在创建表的时候指定SALT_BUCKETS来实现pre-split(预分割)。如下表示创建表的时候将表预分割到20个region里面。

CREATE TABLE SALT_TEST (a_key VARCHAR PRIMARY KEY, a_col VARCHAR) SALT_BUCKETS = 20;

默认情况下，对salted table创建二级索引，二级索引表会随同源表切进行Salted切分，SALT_BUCKETS与源表保持一致。当然，在创建二级索引表的时候也可以自定义SALT_BUCKETS的数量，phoenix没有强制它的数量必须跟源表保持一致。

2. 实现原理
Phoenix Salted Table的实现原理是在将一个散列取余后的byte值插入到 rowkey的第一个字节里，并通过定义每个region的start key 和 end key 将数据分割到不同的region，以此来防止自增序列引入的热点问题，从而达到平衡HBase集群的读写性能的目的。

salted byte的计算方式大致如下：

hash(rowkey) % SALT_BUCKETS

SALT_BUCKETS的取值为1到256。

默认下salted byte将作为每个region的start key 及 end key，以此分割数据到不同的region，这样能做到具有相同salted byte的数据能够位于同一个region里面。

3. SALT_BUCKET的本质
Salting能够通过预分区(pre-splitting)数据到多个region中来显著提升读写性能。

Salting 翻译成中文是加盐的意思，本质是在hbase中，rowkey的byte数组的第一个字节位置设定一个系统生成的byte值，这个byte值是由主键生成rowkey的byte数组做一个哈希算法，计算得来的。Salting之后可以把数据分布到不同的region上，这样有利于phoenix并发的读写操作。关于SaltedTable的说明在 http://phoenix.apache.org/salted.html。

salted table可以自动在每一个rowkey前面加上一个字节，这样对于一段连续的rowkeys，它们在表中实际存储时，就被自动地分布到不同的region中去了。当指定要读写该段区间内的数据时，也就避免了读写操作都集中在同一个region上。
简而言之，如果我们用Phoenix创建了一个saltedtable，那么向该表中写入数据时，原始的rowkey的前面会被自动地加上一个byte（不同的rowkey会被分配不同的byte），使得连续的rowkeys也能被均匀地分布到多个regions。

4. 实例展示

CREATE TABLE SALT_TEST (a_key VARCHAR PRIMARY KEY, a_col VARCHAR) SALT_BUCKETS = 4;

UPSERT INTO SALT_TEST(a_key, a_col) VALUES('key_abc', 'col_abc');
UPSERT INTO SALT_TEST(a_key, a_col) VALUES('key_ABC', 'col_ABC');
UPSERT INTO SALT_TEST(a_key, a_col) VALUES('key_rowkey01', 'col01');

从phoenix sqlline.py查询数据，没感觉有什么不同：

0: jdbc:phoenix:node1> select * from "SALT_TEST";
+---------------+----------+
|     A_KEY     |  A_COL   |
+---------------+----------+
| key_ABC       | col_ABC  |
| key_rowkey01  | col01    |
| key_abc       | col_abc  |
+---------------+----------+
3 rows selected (0.024 seconds)

通过hbase shell 观察验证，观察到phoenix确实是在rowkey的第一个字节插入一个byte字节:

hbase(main):062:0* scan 'SALT_TEST'
ROW                                      COLUMN+CELL                                                                                                         
 \x01key_ABC                             column=0:A_COL, timestamp=1539077357795, value=col_ABC                                                              
 \x01key_ABC                             column=0:_0, timestamp=1539077357795, value=x                                                                       
 \x01key_abc                             column=0:A_COL, timestamp=1539077357747, value=col_abc                                                              
 \x01key_abc                             column=0:_0, timestamp=1539077357747, value=x                                                                       
 \x03key_rowkey01                        column=0:A_COL, timestamp=1539077359188, value=col01                                                                
 \x03key_rowkey01                        column=0:_0, timestamp=1539077359188, value=x                                                                       
3 row(s) in 0.0440 seconds

这里我们可以判断phoenix是在写入数据的时候做了处理，在插入数据的时候会计算一个byte字段并将这个字节插入到rowkey的首位置上；而在读取数据的API里面也相应地进行了处理，跳过(skip)第一个字节从而读取到正确的rowkey(注意只有salted table需要这么处理)，所以只能通过phoenix接口来获取数据已确保拿到正确的rowkey。

5. 特别注意

可以看到，在每条rowkey前面加了一个Byte，这里显示为了16进制。也正是因为添加了一个Byte，所以SALT_BUCKETS的值范围在必须再1 ~ 256之间。而添加的这个Byte是根据什么来分的我就不得而知了，所以最好不要使用HBase的API插入数据。

因此，在使用SALT_BUCKETS的时候需要注意以下两点：
创建salted table后，应该使用Phoenix SQL来读写数据，而不要混合使用Phoenix SQL和HBase API
如果通过Phoenix创建了一个salted table，那么只有通过Phoenix SQL插入数据才能使得被插入的原始rowkey前面被自动加上一个byte，通过HBase shell插入数据无法prefix原始的rowkey

比如使用Hbase的BulkLoad API向SALT_BULKET的表中插入数据中插入数据，会出现ROW_KEY的第一个字节在Phoenix中查看少一位的情况，并且在Phoenix中使用ROW_KEY查询会出现查询不到结果的情况。

登录后即可回复登录 | 注册

spark jdbc分区并发读取 mysql 大表 hadoop hbase phoenix 大数据集群环境安装配置 hadoop hbase phoenix jdk 版本支持对应 phoenix 修改表名 spark rdd 遍历分区输出分区内容 phoenix使用salt buckets创建预分区 mysql 在同一个数据库中创建多个表的缺陷 mysql 创建空间列 mysql 分区 mysql 创建选项文件 php cond 创建一个条件变量 php fann 函数创建一个标准的反向传播神经网络，该网络不是全连接。php fann 函数创建一个全连接的反向传播神经网络，该网络使用一个表示每层大小的数组来构造。php mcrypt 函数从随机源创建初始向量 php 密码散列算法函数创建密码的散列（hash）php 变量的使用创建变量并设置值 php memcached 创建一个memcached实例 php mongoint64 创建一个新的 64 位 integer。php mongoregex 创建一个新的正则表达式 spark读取mongoDB分片分区的方式