PgSQL · 社区动态 · 9.5 新功能BRIN索引

最后更新于：2022-04-01 10:40:15

虽然PG 9.4发布不过半年时间，下一个大版本9.5却已经进入人们的视野。按目前的情况，2015年上半年可能发布beta版本，下半年正式发布PG 9.5。9.5里面最令人瞩目的一个新功能恐怕是BRIN索引了。下面这个commit加入了对BRIN索引的支持： > commit: 7516f5259411c02ae89e49084452dc342aadb2ae > author: Alvaro Herrera [alvherre@alvh.no-ip.org](mailto:alvherre@alvh.no-ip.org) > date: Fri, 7 Nov 2014 16:38:14 -0300 > BRIN: Block Range Indexes > > BRIN is a new index access method intended to accelerate scans of very > large tables, without the maintenance overhead of btrees or other > traditional indexes. They work by maintaining “summary” data about > block ranges. Bitmap index scans work by reading each summary tuple and > comparing them with the query quals; all pages in the range are returned > in a lossy TID bitmap if the quals are consistent with the values in the > summary tuple, otherwise not. Normal index scans are not supported > because these indexes do not store TIDs. BRIN即Block Range Indexes，顾名思义，就是对数据块区段所做的索引。其实它的设计思路很简单，就是通过扫描整个表，记录下每个固定区段（例如第1到128号数据块）所含数据被索引字段的最大值和最小值，依次存入索引空间。当处理某个查询，需要找到符合查询条件的记录时，可以使用BRIN索引，跳过与查询条件不符合的区段，加速查找。下面我们分析一下这种新型索引的使用方法和内核实现。 ## 使用下面我们创建一个有一百万记录的表，然后为其建立BRIN索引，再在表上做查询： ~~~ postgres=# create table t AS SELECT generate_series(1,100000000) AS id; SELECT 100000000 postgres=# \timing Timing is on. postgres=# create index idx_brin on t using brin(id); CREATE INDEX Time: 72766.822 ms postgres=# explain analyze select * from t where id = 507654; QUERY PLAN ----------------------------------------------------------------------------------------- Bitmap Heap Scan on t (cost=52.01..56.02 rows=1 width=4) (actual time=26.046..41.431 rows=1 loops=1) Recheck Cond: (id = 507654) Rows Removed by Index Recheck: 28927 Heap Blocks: lossy=128 -> Bitmap Index Scan on idx_brin (cost=0.00..52.01 rows=1 width=0) (actual time=6.408..6.408 rows=1280 loops=1) Index Cond: (id = 507654) Planning time: 8.265 ms Execution time: 42.575 ms (8 rows) Time: 67.897 ms ~~~ 可见，使用BRIN避免了全表扫描，执行时间为67ms左右。下面我们对比一下，如果不使用BRIN，耗时多少（注意，我们做下面操作之前，清空了操作系统pagecache，并重启了PG）： ~~~ postgres=# drop index idx_brin; DROP INDEX postgres=# explain analyze select * from t where id = 507654; QUERY PLAN ---------------------------------------------------------------------------------------- Seq Scan on t (cost=0.00..1692478.00 rows=1 width=4) (actual time=194.665..35124.454 rows=1 loops=1) Filter: (id = 507654) Rows Removed by Filter: 99999999 Planning time: 6.345 ms Execution time: 35125.633 ms (5 rows) ~~~ 执行时间35s左右！原因在于，使用BRIN索引时，实际只读取了一个区段里的数据块，而全表扫描时，则读取所有数据块。 ## 实现存储结构 BRIN索引的存储结构如下图所示： ![存储结构](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2015-09-24_5603953ca769b.png "BRIN 索引存储结构") BRIN索引由一组相同结构的索引块组成，每个索引块含有固定数目的索引记录，每条记录里面含有一个指向最值块的指针。最值块里面的每条记录存放了区段最大和最小值，及其对应的数据区段起始块的块号。要想定位某个数据块对应的BRIN索引记录，可以按下面的公式，计算索引块号和索引记录的位置： ~~~ 索引块号 =（数据块号 / 每个区段包含的块数） / 每个索引块含有的索引记录数索引记录的位置 = （数据块号 / 每个区段包含的块数）% 每个索引块含有的索引记录数 ~~~ 例如，如果一条数据记录所在数据块块号为1000，而在缺省情况下BRIN索引每个区段包含的块数为128（可以在创建索引时，通过`WITH (pages_per_range = xxx)`子句来修改），而每个索引块的索引记录数固定（约为8K/6)，这样可以很容易按照公式找到对应索引记录。而由索引记录里面存放的指针，可以读取到对应最值块和最值记录。索引构建 BRIN索引的构建过程比较简单，需要对原表做一次全表扫描，每扫描完一个区段，相应的索引块和最值块也构建完成。值得注意的是，对于最后一个区段，如果所含的块数不足，则不会为其构建最值记录；而是等到数据块数达到一个完整区块时，才为其计算最值。这样的设计，有利于提高从表尾部大规模插入数据时的性能。查询操作使用BRIN索引处理查询时，PG会从头开始，检查所有的索引记录，并用索引记录指向的最值记录与查询条件相比较，从而判断对应区段是否可能包含符合查询条件的数据；最后得到所有相关区段列表，再顺序读取这些区段中的数据块进行比较，返回实际符合查询条件的数据记录。插入操作 BRIN索引插入操作的接口函数为`brininsert`，在一个数据记录被插入到数据块后被调用。其过程主要是利用数据块号，按照上面提到的定位过程，找到对应的最值记录，然后比较最值和插入的数据记录值。如果最大值小于该数据记录值，或最小值大于数据记录值，则更新最大或最小值。值得注意的是，插入操作如果要更新索引或最值记录，是要锁定整个块的，这样多个并行插入对索引的修改是很容易冲突的，就是说BRIN索引会一定程度上降低并行插入的性能。删除和更新操作 BRIN索引的所有接口函数可以在`pg_am.h`中找到。但令人疑惑的是，只有插入（insert）的接口函数，没有针对删除（delete）或更新（update）的函数。其实，和PG其他类型的索引类似，BRIN索引也是不需要执行删除操作的。删除一条数据记录时，BRIN索引不做修改。即使在对一个表做VACUUM操作时，也同样不需修改BRIN索引（注意，对于其他索引如B树索引，在VACUUM操作时会修改索引删除无效索引记录）。另一方面，对于更新操作，相当于一次删除加一次插入操作，由于不需要对索引做删除操作，实际只做了一次索引插入。 ## 小结通过上面分析，不难看出，这种BRIN索引适用于下面的场景： 1. 非常大的表，如果创建B树索引，会占用较大空间；采用BRIN，不失为一种时间换空间的方法（BRIN比B树索引处理查询时会慢一些）； 2. 经常大批量尾部插入的表，这些表如果创建了B树索引，会引起索引尾部更新的互斥；而使用BRIN索引，尾部数据块的索引记录只在满了一个区段时才进行一次插入，减少了互斥的情况。 BRIN是PG 9.5一个令人期待的新功能，对于BRIN将给PG带来的性能、易用性方面的变化，我们拭目以待。