您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
   
 
 
     
   
 订阅
  捐助
Informix Dynamic Server 数据压缩和存储优化
 
来源:数据仓库之路 发布于: 2016-8-8
  2394  次浏览      16
 

摘要: 通过使用 IDS 的数据压缩和优化特性,可以获得多种收益,包括显著节省存储空间、减少 I/O 活动以及加快备份和恢复。请下载试用 IDS 的最新版本 (Version 11.50.xC4)。

IDS 存储优化的工作原理

IDS 存储优化会考虑整行和其中的所有列(除了作为字节串存储在行之外的列数据,比如 BLOB 数据)。然后,IDS 寻找重复出现的模式,把这些模式作为符号存储在压缩词典中,参见图 1:

图 1. 可作为符号存储在词典中的模式

一个职员数据库表的表示形式,显示了哪些数据可压缩以及如何在压缩词典中表示它们

在创建词典之后,IDS 将该字典存储在一个词典存储库中。

表的存储优化过程涉及到四个步骤:

创建压缩词典。

压缩表或表分段中的行中的数据。

重新组合表或分段行。

回收空闲的空间。

下面几节将详细讨论每个步骤。

创建压缩词典

为了创建词典,IDS 从现有的表中对一些行进行取样,并创建一个符号词典,这些符号代表字节模式。IDS 在词典存储库中存储这个词典。每个包含已压缩的分区的 dbspace 都有一个词典存储库。词典还可以存储在内存中,这使活动的查询和更新可以快速压缩和解压数据。

每个词典的大小大约为 75KB。但是,每个词典可以增长到 150KB。IDS 在内存中存储每个压缩的分区的压缩词典。因此,DBA 一定要考虑到这些资源需求。

压缩表或分段行中的数据

在创建词典之后,IDS 会启动一个后台进程,它扫描和压缩了表或分段行。这个进程压缩每一行,并将这些行留在原来的页面中,它还会压缩插入或更新的所有行。

在运行压缩操作时,表上可能正在执行其他事务和查询。因此,IDS 在小事务中执行此操作,只在短时间内持有当前压缩的行上的锁。

重新组合行

完成数据压缩之后,在行之间可能存在大量未使用的空间或空洞。重新组合操作使用一种与压缩操作相似的算法将所有行转移到分区的前部。该操作也会利用小事务,只锁住当前转移的行。

回收空闲的空间

重新组合所有行之后,收缩操作会删除未使用的表或分段空间,将空闲的空间返回给包含此表或分段的 dbspace。

压缩和存储优化任务的先决条件

要执行存储优化任务,必须能够连接 sysadmin 数据库,还必须是数据库服务器管理员 (DBSA)。在默认情况下,只有名为 Informix 的用户能够执行这些任务。

识别压缩候选对象

执行估计压缩率的命令

存储优化可以在表级或分段表的分段级上进行。可以通过执行带 estimate_compression 参数的 table 或 fragment 命令来识别压缩候选对象(在 Version 11.50.xC4 和更高版本中)。

这个命令显示的数据压缩率是根据对表行的随机取样计算出的估计值。实际节省的空间比率可能有细微的差异。

清单 1 给出一个示例职员表,它有三个分段。第一个分段是未压缩的,curr(当前压缩率)列中的值为 0.0%。另外两个分段的 curr 列表示当前实现的压缩率。每个分段的 change 列表示未压缩的表与已压缩的表之间可能存在的压缩率差异。

清单 1:压缩估计值

 
							$ dbaccess hrdb –

Database selected.

> select sysadmin:task("table estimate_compression", tabname) 
 from systables where tabid > 100;

(expression)  est   curr  change partnum    table
              ----- ----- ------ ---------- -----------------------------------
              85.9%  0.0%  +85.9 0x00200002 hrdb:informix.employee
              85.9% 85.5%   +0.4 0x00300002 hrdb:informix.employee
              86.1% 86.1%   +0.0 0x00400002 hrdb:informix.employee

              Succeeded: table estimate_compression  hrdb:informix.employee

(expression)  est   curr  change partnum    table
              ----- ----- ------ ---------- -----------------------------------
              22.5%  0.0%  +22.5 0x001001f6 hrdb:informix.audit_log

              Succeeded: table estimate_compression  hrdb:informix.audit_log

2 row(s) retrieved.

在 Windows 上使用单独的 IDS Compression Estimator

在 11.50.xC4 之前的 IDS 版本中,可以使用单独的 Windows? 实用程序 IDS Compression Estimator 来识别压缩候选对象。本文的 参考资料 部分包含这个实用程序的下载链接。在 Windows 系统上安装这个实用程序以及 Client-SDK 或 I-Connect(这是连接 IDS 实例所需的)。安装估算程序(estimator)之后,可以提供所需的连接信息,远程连接任何 IDS 实例。

图 2 说明了这个实用程序如何显示数据压缩可能节省的存储空间:

图 2. IDS Compression Estimator

IDS Compression Estimator 的屏幕截图。显示了 results 选项卡。每个数据库表都包含针对大小、压缩后的大小和压缩节省的空间比例的列。

优化存储

首先启用压缩

在压缩数据之前,必须先启用磁盘压缩。在数据库服务器的生存期内,只需启用压缩一次。但是,在评估数据压缩会节省多少空间时,不需要启用压缩。如果希望使用重新组合或收缩操作释放表中的空间而不压缩数据,也不需要启用压缩。

执行下面的 SQL 管理 API 语句来启用压缩:

 > execute function sysadmin:task("enable compression");

请注意,在启用压缩之后,要想回到以前的不支持压缩的 IDS 版本,则必须执行 IDS 的逆转过程。还需要在逆转之前解压或删除所有已压缩的表或分段。

执行压缩任务

IDS 存储优化的模块化设计允许用户单独或一起执行压缩和存储优化任务。这意味着可以用一个 SQL 语句或多个单独的语句执行所有操作(比如压缩数据、将行转移到分区的前部,并释放分区末尾的空闲空间)。另外,还可以在任何时候单独地重新组合或收缩表(包括压缩的和未压缩的),而且不会阻止其他 DML 活动。

例如,清单 2 中的命令减少一个按时间分段的表中的比较旧、比较静态的分段的大小,同时让近期的频繁访问的数据仍然处于未压缩状态:

清单 2:减少分段大小的命令

 > select sysadmin:task('fragment compress repack shrink', partn)
> from sysfragments F, systables T
> where F.tabid = T.tabid
> and F.partition in LIST{"dbsp3", "dbsp4"}
> and T.tabname = "trans_detail";

图 3 说明存储优化过程中分区内的数据和空闲空间:

图 3. 压缩和存储优化过程中分区内的数据

1) 未压缩的数据使用了分区的大部分空间 2) 压缩操作在行之间创建了空闲空间 3) 重新组合操作将空闲空间转移到分区前部 4) 搜索操作释放分区末尾的空闲空间

如果要压缩单一分段,那么可以使用带 partition number 参数的 fragment 命令。例如:

> execute function sysadmin:task("fragment compress", “0x500002”);

如果要压缩和重新组合表中的所有分段,那么可以使用带 table name 参数的 table 命令。例如:

  > execute function sysadmin:task("table compress repack", "trans_detail",
"hrdb", "informix");

备注:在 sysadmin:task 函数中,第三个和第四个参数(database name 和 owner name)是可选的。这些参数的默认值分别是当前的数据库和所有者名称。

只创建词典

如果不希望压缩现有的行数据,只是希望压缩新插入或更新的行,那么可以通过执行带 create_dictionary 参数的 table 或 fragment 命令来仅创建压缩词典。要想构建全面的压缩词典,必须确保表的每个分段至少有 2000 行数据可供取样。

例如,下面的命令可为 employee 表创建压缩词典,但是并不压缩现有的行:

 > execute function sysadmin:task("table create_dictionary", "employee");

解压数据

可以解压以前压缩的表或分段。解压表或分段会对新的插入和更新禁用压缩,解压所有压缩的行并将压缩词典标为禁用的。Enterprise Replication 和 Change Data Capture API 可以使用禁用的词典,因为它们可能需要处理以前的日志。但是,将压缩词典标为禁用的之后,IDS 就不再使用它压缩新插入或修改的行。

解压操作通常需要为原来的页面中放不下的行分配新的页面。

下面是解压数据的命令示例。第一个示例对一个分段使用 uncompress 命令。第二个示例对表使用了 uncompress_offline 命令。在使用uncompress_offline 命令时,解压操作会持有正在处理的分段上的排他锁,这会阻止对行数据进行的其他所有访问,直到解压操作完成为止。

 > execute function sysadmin:task(“fragment uncompress”, “4194306”);
 > execute function sysadmin:task(“table uncompress_offline”, “employee”);

监视接口

System-Monitoring Interface (SMI)

IDS 将压缩词典(包括启用和禁用的)存储在一个名为 rsccompdict 的词典存储库中。每个包含压缩的表或分段的 dbspace 有一个词典存储库。

sysmaster 数据库中的 syscompdicts 视图将会收集所有词典存储库的相关信息。每一行都代表与部件号 (partnum) 指定的表或分段相关联的一个压缩词典。

清单 3 显示了一个启用的词典,它只有创建信息(比如创建时间戳、日志惟一 id 和日志)。禁用的词典还会具有额外的删除信息。

清单 3. syscompdicts 压缩词典信息

 
  > select * from sysmaster:syscompdicts;

dict_partnum 2097154
dict_code_version 1
dict_dbsnum 2
dict_create_times+ 1239141487
dict_create_logun+ 24
dict_create_logpos 4997200
dict_drop_timesta+ 1239235592
dict_drop_loguniq+ 26
dict_drop_logpos 5375332

dict_partnum 5242882
dict_code_version 1
dict_dbsnum 5
dict_create_times+ 1239293762
dict_create_logun+ 33
dict_create_logpos 10055760
dict_drop_timesta+ 0
dict_drop_loguniq+ 0
dict_drop_logpos 0

2 row(s) retrieved.

onstat 实用程序

可以使用 onstat -g ppd 命令查看当前打开的已启用压缩词典,参见清单 4。(这个 onstat 命令并没有列出禁用的词典)。

清单 4. -g ppd 显示的信息

 
$ onstat -g ppd

IBM Informix Dynamic Server Version 11.50.FC4 \\
-- On-Line -- Up 1 days 19:42:23 -- 157696 Kbytes
Partition Compression Dictionary Info
partnum Version DbsNum CrTS CrLogID CrLogPos DrTS DrLogID DrLogPos
0x300002 1 3 1239139862 24 3559504 0 0 0
0x400002 1 4 1239139959 24 3682384 0 0 0
0x500002 1 5 1239293762 33 10055760 0 0 0

还可以使用 onstat -g dsk 命令跟踪当前运行的压缩操作的进度,参见清单 5:

清单 5. onstat -g dsk 显示的信息

 
 $ onstat –g dsk
IBM Informix Dynamic Server Version 11.50.FC4 \\
-- On-Line -- Up 3 days 01:18:15 -- 174080 Kbytes

Partnum OP Processed Cur Page Duration Table
0x00500002 2 2000 112 0s trans_detail
0x00400002 4 1300 334 0s employee

oncheck 实用程序

要想获得针对分区问题的 TBLspace 磁盘利用率报告,可以使用 oncheck -pT 命令,如清单 6 所示。对于压缩的分区,报告的最后一部分包含压缩数据汇总信息。

清单 6. oncheck -pT 显示的信息

 
Table fragment partition dbsp4 in DBspace dbsp4
Physical Address               5:5
Creation date 04/09/2009 10:56:44
TBLspace Flags 8000801 Page Locking
TBLspace use 4 bit bit-maps
TBLspace is compressed
Maximum row size 107
Number of special columns 0
Number of keys 0
Number of extents 1
Current serial value 1
Current SERIAL8 value 1
Current BIGSERIAL value 1
Current REFID value 1
Pagesize (k) 2
First extent size 8
Next extent size 8
Number of pages allocated 337
Number of pages used 337
Number of data pages 336
Number of rows 6242
Partition partnum 5242882
Partition lockid 2097156
Extents
Logical Page Physical Page Size Physical Pages
0 5:53 337 337
TBLspace Usage Report for hrdb:informix.trans_detail
Type Pages Empty Semi-Full Full Very-Full
---------------- ---------- ---------- ---------- ---------- ----------
Free 0
Bit-Map 1
Index 0
Data (Home) 336
----------
Total Pages 337
Unused Space Summary
Unused data slots 0
Unused bytes per data page 22
Total unused bytes in data pages 7392
Home Data Page Version Summary
Version Count
0 (current) 336
Compressed Data Summary
Number of rows 6242
Number of compressed rows 5005
Percentage of compressed rows 80.18

要想了解实际节省的存储空间,可以对比执行存储优化前后的磁盘利用率报告。

Open Admin Tool (OAT)

OAT 为 IDS 管理提供了一个便于使用的 Web 界面。可以通过本文的 参考资料 部分中的链接,获取关于 OAT 的更多信息和下载说明。

可以使用 OAT 轻松地识别压缩候选对象并执行存储优化任务。图 4 显示了一个数据库及其表的视图,以及它们目前的压缩状态。将鼠标悬停在 usage 列上,就会看到压缩估计值。另外,还可以通过查看 DBspaces 视图来识别 dbspace 中的压缩候选对象。

图 4. 显示数据库中表的压缩状态的 OAT 视图

OAT 屏幕截图显示了数据库的当前压缩状态。将光标悬停在一个表上就会显示压缩估计值

在找到压缩候选对象之后,可以选择要执行的存储优化操作。这些任务如图 5 所示:

图 5. 存储优化任务的 OAT 视图

OAT 屏幕截图显示,用户为数据库表选择了压缩、重新组合和收缩操作。

可以通过 Compression Task Status 选项卡查看正在运行的压缩任务的状态信息。

   
2394 次浏览       16
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新课程计划
信息架构建模(基于UML+EA)3-21[北京]
软件架构设计师 3-21[北京]
图数据库与知识图谱 3-25[北京]
业务架构设计 4-11[北京]
SysML和EA系统设计与建模 4-22[北京]
DoDAF规范、模型与实例 5-23[北京]

MySQL索引背后的数据结构
MySQL性能调优与架构设计
SQL Server数据库备份与恢复
让数据库飞起来 10大DB2优化
oracle的临时表空间写满磁盘
数据库的跨平台设计
更多...   


并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理


GE 区块链技术与实现培训
航天科工某子公司 Nodejs高级应用开发
中盛益华 卓越管理者必须具备的五项能力
某信息技术公司 Python培训
某博彩IT系统厂商 易用性测试与评估
中国邮储银行 测试成熟度模型集成(TMMI)
中物院 产品经理与产品管理
更多...