Passer au contenu principal

Fonction de table hdfs

Crée une table à partir de fichiers dans HDFS. Cette fonction de table est semblable aux fonctions de table url et file.

Syntaxe

hdfs(URI, format, structure)

Arguments

ArgumentDescription
URIURI relative du fichier dans HDFS. Le chemin du fichier prend en charge les motifs glob suivants en mode lecture seule : *, ?, {abc,def} et {N..M}, où N et M sont des nombres, et 'abc', 'def' des chaînes.
formatLe format du fichier.
structureStructure de la table. Format : 'column1_name column1_type, column2_name column2_type, ...'.

Valeur retournée

Une table dotée de la structure spécifiée, permettant de lire ou d’écrire des données dans le fichier indiqué. exemple Table issue de hdfs://hdfs1:9000/test et sélection de ses deux premières lignes :
SELECT *
FROM hdfs('hdfs://hdfs1:9000/test', 'TSV', 'column1 UInt32, column2 UInt32, column3 UInt32')
LIMIT 2
┌─column1─┬─column2─┬─column3─┐
│       1 │       2 │       3 │
│       3 │       2 │       1 │
└─────────┴─────────┴─────────┘

Motifs glob dans le chemin

Les chemins peuvent utiliser des motifs glob. Les fichiers doivent correspondre à l’intégralité du motif de chemin, et pas seulement au suffixe ou au préfixe.
  • * — Représente un nombre quelconque de caractères, sauf /, y compris la chaîne vide.
  • ** — Représente tous les fichiers d’un dossier, récursivement.
  • ? — Représente un caractère unique quelconque.
  • {some_string,another_string,yet_another_one} — Remplace par l’une des chaînes 'some_string', 'another_string', 'yet_another_one'. Les chaînes peuvent contenir le symbole /.
  • {N..M} — Représente n’importe quel nombre >= N et <= M.
Les constructions avec {} sont similaires aux fonctions de table remote et file. Exemple
  1. Supposons que nous ayons plusieurs fichiers avec les URI suivantes sur HDFS :
  • ‘hdfs://hdfs1:9000/some_dir/some_file_1’
  • ‘hdfs://hdfs1:9000/some_dir/some_file_2’
  • ‘hdfs://hdfs1:9000/some_dir/some_file_3’
  • ‘hdfs://hdfs1:9000/another_dir/some_file_1’
  • ‘hdfs://hdfs1:9000/another_dir/some_file_2’
  • ‘hdfs://hdfs1:9000/another_dir/some_file_3’
  1. Comptez le nombre de lignes dans ces fichiers :
SELECT count(*)
FROM hdfs('hdfs://hdfs1:9000/{some,another}_dir/some_file_{1..3}', 'TSV', 'name String, value UInt32')
  1. Exécutez une requête pour obtenir le nombre de lignes dans tous les fichiers de ces deux répertoires :
SELECT count(*)
FROM hdfs('hdfs://hdfs1:9000/{some,another}_dir/*', 'TSV', 'name String, value UInt32')
Si votre liste de fichiers contient des plages de nombres avec des zéros en tête, utilisez la construction avec des accolades pour chaque chiffre séparément, ou utilisez ?.
Exemple Interrogez les données des fichiers nommés file000, file001, … , file999 :
SELECT count(*)
FROM hdfs('hdfs://hdfs1:9000/big_dir/file{0..9}{0..9}{0..9}', 'CSV', 'name String, value UInt32')

Colonnes virtuelles

  • _path — Chemin du fichier. Type : LowCardinality(String).
  • _file — Nom du fichier. Type : LowCardinality(String).
  • _size — Taille du fichier en octets. Type : Nullable(UInt64). Si la taille est inconnue, la valeur est NULL.
  • _time — Date et heure de la dernière modification du fichier. Type : Nullable(DateTime). Si cette information est inconnue, la valeur est NULL.

paramètre use_hive_partitioning

Lorsque le paramètre use_hive_partitioning est défini sur 1, ClickHouse détecte le partitionnement de type Hive dans le chemin (/name=value/) et permet d’utiliser les colonnes de partition comme colonnes virtuelles dans la requête. Ces colonnes virtuelles auront les mêmes noms que dans le chemin de partitionnement. Exemple Utiliser une colonne virtuelle créée avec le partitionnement de type Hive
SELECT * FROM HDFS('hdfs://hdfs1:9000/data/path/date=*/country=*/code=*/*.parquet') WHERE date > '2020-01-01' AND country = 'Netherlands' AND code = 42;

Paramètres de stockage

  • hdfs_truncate_on_insert - permet de tronquer le fichier avant d’y insérer des données. Désactivé par défaut.
  • hdfs_create_new_file_on_insert - permet de créer un nouveau fichier à chaque insertion si le format comporte un suffixe. Désactivé par défaut.
  • hdfs_skip_empty_files - permet d’ignorer les fichiers vides lors de la lecture. Désactivé par défaut.
Dernière modification le 25 juin 2026