Les mises à jour légères sont actuellement en bêa.
Si vous rencontrez des problèmes, veuillez ouvrir une issue dans le dépôt ClickHouse repository.
UPDATE légère met à jour les lignes d’une table [db.]table qui correspondent à l’expression filter_expr.
On l’appelle “mise à jour légère” pour la distinguer de la requête ALTER TABLE ... UPDATE, qui est un processus lourd réécrivant des colonnes entières dans les parties de données.
Elle n’est disponible que pour la famille de moteurs de table MergeTree.
filter_expr doit être de type UInt8. Cette requête met à jour les valeurs des colonnes spécifiées en leur attribuant les valeurs des expressions correspondantes, pour les lignes dans lesquelles filter_expr prend une valeur non nulle.
Les valeurs sont converties en type de colonne à l’aide de l’opérateur CAST. La mise à jour des colonnes utilisées dans le calcul des clés primaire ou de partition n’est pas prise en charge.
Exemples
Les mises à jour légères ne mettent pas les données à jour immédiatement
UPDATE léger repose sur des patch parts — un type spécial de partie de données qui contient uniquement les colonnes et les lignes mises à jour.
Un UPDATE léger crée des patch parts, mais ne modifie pas immédiatement et physiquement les données d’origine en stockage.
Le processus de mise à jour est similaire à une requête INSERT ... SELECT ..., mais la requête UPDATE attend que la création de la patch part soit terminée avant de renvoyer la réponse.
Les valeurs mises à jour sont :
- Immédiatement visibles dans les requêtes
SELECTgrâce à l’application des patchs - Physiquement matérialisées uniquement lors des fusions et mutations ultérieures
- Supprimées automatiquement une fois les patchs matérialisés dans toutes les parties actives
Exigences pour les mises à jour légères
MergeTree, ReplacingMergeTree, CollapsingMergeTree, VersionedCollapsingMergeTree, ainsi que par leurs versions Replicated et Shared.
Pour utiliser les mises à jour légères, la matérialisation des colonnes _block_number et _block_offset doit être activée à l’aide des paramètres de table enable_block_number_column et enable_block_offset_column.
DELETE légers
DELETE léger peut être exécutée sous la forme d’un UPDATE léger plutôt que d’une mutation ALTER UPDATE. Le fonctionnement de DELETE léger est contrôlé par le paramètre lightweight_delete_mode.
Considérations relatives aux performances
- La latence de la mise à jour est comparable à celle de la requête
INSERT ... SELECT ... - Seules les colonnes et les valeurs mises à jour sont écrites, et non des colonnes entières dans les parties de données
- Il n’est pas nécessaire d’attendre la fin des fusions/mutations en cours, la latence d’une mise à jour est donc prévisible
- L’exécution parallèle des mises à jour légères est possible
- Ajoute un surcoût aux requêtes
SELECTqui doivent appliquer des patchs - Les index de saut de données ne seront pas utilisés pour les colonnes des parties de données auxquelles des patchs doivent être appliqués. Les projections ne seront pas utilisées s’il existe des patch parts pour la table, y compris pour les parties de données auxquelles aucun patch ne doit être appliqué.
- De petites mises à jour trop fréquentes peuvent entraîner une erreur « too many parts ». Il est recommandé de regrouper plusieurs mises à jour dans une seule requête, par exemple en plaçant les ID à mettre à jour dans une seule clause
INde la clauseWHERE - Les mises à jour légères sont conçues pour mettre à jour de petites quantités de lignes (jusqu’à environ 10 % de la table). Si vous devez en mettre à jour une plus grande quantité, il est recommandé d’utiliser la mutation
ALTER TABLE ... UPDATE
Opérations concurrentes
update_sequential_consistency et update_parallel_mode.
Autorisations de mise à jour
UPDATE nécessite le privilège ALTER UPDATE. Pour permettre à un utilisateur donné d’exécuter des instructions UPDATE sur une table spécifique, exécutez :
Détails de l’implémentation
_part- le nom de la part d’origine_part_offset- le numéro de ligne dans la part d’origine_block_number- le numéro du block de la ligne dans la part d’origine_block_offset- le décalage du block de la ligne dans la part d’origine_data_version- la version des données mises à jour (numéro de block alloué à la requêteUPDATE)
_part et _part_offset.
Les patch parts appartiennent à des partitions différentes de celle de la part d’origine.
L’identifiant de partition de la patch part est patch-<hash of column names in patch part>-<original_partition_id>.
Par conséquent, les patch parts avec des colonnes différentes sont stockées dans des partitions différentes.
Par exemple, trois mises à jour SET x = 1 WHERE <cond>, SET y = 1 WHERE <cond> et SET x = 1, y = 1 WHERE <cond> créeront trois patch parts dans trois partitions différentes.
Les patch parts peuvent être fusionnées entre elles afin de réduire le nombre de patchs appliqués aux requêtes SELECT et de limiter le surcoût. La fusion des patch parts utilise l’algorithme de fusion replacing avec _data_version comme version column.
Par conséquent, les patch parts stockent toujours la version la plus récente de chaque ligne mise à jour dans la part.
Les lightweight updates n’attendent pas la fin des fusions et mutations en cours et utilisent toujours un snapshot actuel des parties de données pour exécuter une mise à jour et produire une patch part.
De ce fait, il peut y avoir deux cas d’application des patch parts.
Par exemple, si nous lisons la part A, nous devons appliquer la patch part X :
- si
Xcontient la partAelle-même. Cela se produit siAne participait pas à une fusion lorsqueUPDATEa été exécuté. - si
Xcontient les partsBetC, qui sont couvertes par la partA. Cela se produit si une fusion (B,C) ->Aétait en cours lorsqueUPDATEa été exécuté.
- Utiliser une fusion sur les colonnes triées
_part,_part_offset. - Utiliser une jointure sur les colonnes
_block_number,_block_offset.
ALTER UPDATE- OpérationsUPDATElourdes- Lightweight
DELETE- OpérationsDELETElégères APPLY PATCHES- Forcer la matérialisation physique des patches sur les parties de données (opération de mutation)