GHCN-Daily est un jeu de données qui contient des observations quotidiennes sur les zones terrestres du globe. Il contient des mesures par station provenant de stations terrestres du monde entier, dont environ les deux tiers concernent uniquement les précipitations (Menne et al., 2012). GHCN-Daily est une compilation d’archives climatiques issues de nombreuses sources, qui ont été fusionnées puis soumises à un ensemble commun de contrôles d’assurance qualité (Durre et al., 2010). Les archives comprennent les éléments météorologiques suivants :
- Température maximale quotidienne
- Température minimale quotidienne
- Température au moment de l’observation
- Précipitations (c.-à-d. pluie, neige fondue)
- Chutes de neige
- Hauteur de neige
- Autres éléments, lorsqu’ils sont disponibles
Téléchargement des données
- Une version préparée à l’avance des données pour ClickHouse, déjà nettoyées, restructurées et enrichies. Ces données couvrent les années 1900 à 2022.
- Télécharger les données d’origine et les convertir dans le format requis par ClickHouse. Les utilisateurs qui souhaitent ajouter leurs propres colonnes peuvent privilégier cette approche.
Données préparées à l’avance
Données d’origine
Téléchargement
Échantillonnage des données
- Un code d’identification de station sur 11 caractères. Il encode à lui seul certaines informations utiles.
- YEAR/MONTH/DAY = date sur 8 caractères au format YYYYMMDD (p. ex. 19860529 = 29 mai 1986)
- ELEMENT = indicateur sur 4 caractères du type d’élément, c’est-à-dire du type de mesure. Bien que de nombreuses mesures soient disponibles, nous sélectionnons les suivantes :
- PRCP - Précipitations (dixièmes de mm)
- SNOW - Chute de neige (mm)
- SNWD - Hauteur de neige (mm)
- TMAX - Température maximale (dixièmes de degré C)
- TAVG - Température moyenne (dixièmes de degré C)
- TMIN - Température minimale (dixièmes de degré C)
- PSUN - Pourcentage quotidien d’ensoleillement possible (pourcentage)
- AWND - Vitesse moyenne quotidienne du vent (dixièmes de mètre par seconde)
- WSFG - Vitesse maximale des rafales de vent (dixièmes de mètre par seconde)
- WT** = Type de temps, où ** définit le type de temps. Liste complète des types de temps ici.
- DATA VALUE = valeur de données sur 5 caractères pour ELEMENT, c.-à-d. la valeur de la mesure.
- M-FLAG = indicateur de mesure sur 1 caractère. Il a 10 valeurs possibles. Certaines indiquent une précision des données discutable. Nous acceptons les données pour lesquelles cette valeur est définie sur “P”, c’est-à-dire manquant présumé nul, car cela ne concerne que les mesures PRCP, SNOW et SNWD.
- Q-FLAG est l’indicateur de qualité de la mesure, avec 14 valeurs possibles. Nous nous intéressons uniquement aux données dont la valeur est vide, c.-à-d. qui n’ont échoué à aucun contrôle d’assurance qualité.
- S-FLAG est l’indicateur de source de l’observation. Il n’est pas utile pour notre analyse et nous l’ignorons.
- OBS-TIME = heure d’observation sur 4 caractères au format heure-minute (c.-à-d. 0700 = 7:00 am). Généralement absente des données plus anciennes. Nous l’ignorons pour notre usage.
qFlag est égal à une chaîne vide.
Nettoyer les données
Réorganiser les données
GROUP BY, nous pouvons réorganiser nos données selon cette structure. Pour limiter la consommation mémoire supplémentaire, nous procédons fichier par fichier.
noaa.csv.
Enrichir les données
noaa_enriched.parquet.
Créer une table
Insérer des données dans ClickHouse
Insertion à partir d’un fichier local
<path> représente le chemin complet du fichier local sur le disque.
Voir ici pour savoir comment accélérer le chargement.