此查询会尝试为表发起一次未计划的分区片段合并。请注意,我们通常不建议使用 OPTIMIZE TABLE ... FINAL(参见这些文档),因为它主要用于管理维护场景,而不是日常业务操作。
注意
OPTIMIZE 无法解决 Too many parts 错误。
语法
OPTIMIZE TABLE [db.]name [ON CLUSTER cluster] [PARTITION partition | PARTITION ID 'partition_id'] [FINAL | FORCE] [DEDUPLICATE [BY expression]]
OPTIMIZE 查询支持 MergeTree 系列表引擎(包括 materialized views)以及 Buffer 引擎。其他表引擎不支持。
当在 ReplicatedMergeTree 系列表引擎中使用 OPTIMIZE 时,ClickHouse 会创建一个合并任务,并在所有副本上等待其执行完成(如果 alter_sync 设置为 2),或者只在当前副本上等待(如果 alter_sync 设置为 1)。
可以通过 replication_wait_for_inactive_replica_timeout 设置指定等待处于非活动状态的副本执行 OPTIMIZE 查询的时间(以秒为单位)。
注意
如果 alter_sync 设置为 2,并且某些副本处于非活动状态的时间超过 replication_wait_for_inactive_replica_timeout 设置指定的时长,则会抛出 UNFINISHED 异常。
BY 表达式
如果希望仅在自定义的一组列上执行去重,而不是在所有列上去重,可以显式指定列列表,或者使用任意组合的 *、COLUMNS 或 EXCEPT 表达式。显式写出或隐式展开得到的列列表必须包含行排序表达式中指定的所有列(包括主键和排序键)以及分区表达式中指定的所有列(分区键)。
注意
请注意,* 的行为与 SELECT 中相同:MATERIALIZED 和 ALIAS 列不会用于展开。
此外,指定空的列列表,或编写导致列列表为空的表达式,或者按某个 ALIAS 列去重,都是错误的。
语法
OPTIMIZE TABLE table DEDUPLICATE; -- all columns
OPTIMIZE TABLE table DEDUPLICATE BY *; -- excludes MATERIALIZED and ALIAS columns
OPTIMIZE TABLE table DEDUPLICATE BY colX,colY,colZ;
OPTIMIZE TABLE table DEDUPLICATE BY * EXCEPT colX;
OPTIMIZE TABLE table DEDUPLICATE BY * EXCEPT (colX, colY);
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex');
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex') EXCEPT colX;
OPTIMIZE TABLE table DEDUPLICATE BY COLUMNS('column-matched-by-regex') EXCEPT (colX, colY);
示例
请看下列表:
CREATE TABLE example (
primary_key Int32,
secondary_key Int32,
value UInt32,
partition_key UInt32,
materialized_value UInt32 MATERIALIZED 12345,
aliased_value UInt32 ALIAS 2,
PRIMARY KEY primary_key
) ENGINE=MergeTree
PARTITION BY partition_key
ORDER BY (primary_key, secondary_key);
INSERT INTO example (primary_key, secondary_key, value, partition_key)
VALUES (0, 0, 0, 0), (0, 0, 0, 0), (1, 1, 2, 2), (1, 1, 2, 3), (1, 1, 3, 3);
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
│ 1 │ 1 │ 3 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘
所有接下来的示例都是在包含 5 行数据的这一状态下执行的。
DEDUPLICATE
当未指定用于去重的列时,将使用所有列进行去重。只有当该行所有列的值都与前一行对应列的值完全相同时,该行才会被移除:
OPTIMIZE TABLE example FINAL DEDUPLICATE;
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
│ 1 │ 1 │ 3 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘
DEDUPLICATE BY *
当未显式指定列时,表会按所有不是 ALIAS 或 MATERIALIZED 的列进行去重。结合上表,这些列是 primary_key、secondary_key、value 和 partition_key 列:
OPTIMIZE TABLE example FINAL DEDUPLICATE BY *;
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
│ 1 │ 1 │ 3 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘
DEDUPLICATE BY * EXCEPT
根据所有不是 ALIAS 或 MATERIALIZED 且显式排除 value 的列进行去重,即:primary_key、secondary_key 和 partition_key 列。
OPTIMIZE TABLE example FINAL DEDUPLICATE BY * EXCEPT value;
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘
DEDUPLICATE BY <list of columns>
显式按 primary_key、secondary_key 和 partition_key 列进行去重:
OPTIMIZE TABLE example FINAL DEDUPLICATE BY primary_key, secondary_key, partition_key;
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘
DEDUPLICATE BY COLUMNS(<regex>)
按所有匹配该正则表达式的列进行去重:primary_key、secondary_key 和 partition_key 列:
OPTIMIZE TABLE example FINAL DEDUPLICATE BY COLUMNS('.*_key');
结果:
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 0 │ 0 │ 0 │ 0 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 2 │
└─────────────┴───────────────┴───────┴───────────────┘
┌─primary_key─┬─secondary_key─┬─value─┬─partition_key─┐
│ 1 │ 1 │ 2 │ 3 │
└─────────────┴───────────────┴───────┴───────────────┘