GHCN-Daily هي مجموعة بيانات تتضمن رصودًا يومية عبر المناطق البرية حول العالم. وهي تحتوي على قياسات قائمة على محطات رصد برية من مختلف أنحاء العالم، ويقتصر نحو ثلثيها على قياسات الهطول فقط (Menne et al., 2012). وتُعد GHCN-Daily تجميعًا لسجلات مناخية من مصادر متعددة دُمجت معًا وخضعت لمجموعة موحدة من مراجعات ضمان الجودة (Durre et al., 2010). ويشمل الأرشيف العناصر الجوية التالية:
- درجة الحرارة العظمى اليومية
- درجة الحرارة الصغرى اليومية
- درجة الحرارة وقت الرصد
- الهطول (أي المطر والثلج الذائب)
- تساقط الثلوج
- عمق الثلج
- عناصر أخرى عند توفرها
تنزيل البيانات
- نسخة مُعدّة مسبقًا من البيانات لـ ClickHouse، وقد نُقِّيت وأُعيدت هيكلتها وأُثرِيت. تغطي هذه البيانات السنوات من 1900 إلى 2022.
- نزّل البيانات الأصلية وحوّلها إلى الصيغة المطلوبة لـ ClickHouse. قد يرغب المستخدمون الذين يريدون إضافة أعمدة خاصة بهم في استكشاف هذا النهج.
بيانات مُعدّة مسبقًا
البيانات الأصلية
تنزيل
أخذ عينات من البيانات
- رمز تعريف للمحطة يتكوّن من 11 حرفًا. ويتضمن هذا الرمز بحد ذاته بعض المعلومات المفيدة.
- YEAR/MONTH/DAY = تاريخ من 8 أحرف بتنسيق YYYYMMDD (مثل 19860529 = 29 مايو 1986)
- ELEMENT = مؤشر من 4 أحرف لنوع العنصر، وهو عمليًا نوع القياس. ورغم توفر العديد من القياسات، فإننا نختار ما يلي:
- PRCP - الهطول (أعشار المليمتر)
- SNOW - تساقط الثلوج (مم)
- SNWD - عمق الثلوج (مم)
- TMAX - درجة الحرارة العظمى (أعشار الدرجة المئوية)
- TAVG - متوسط درجة الحرارة (أعشار الدرجة المئوية)
- TMIN - درجة الحرارة الصغرى (أعشار الدرجة المئوية)
- PSUN - النسبة اليومية لمدة سطوع الشمس الممكنة (بالمئة)
- AWND - متوسط سرعة الرياح اليومية (أعشار المتر في الثانية)
- WSFG - أقصى سرعة لهبّات الرياح (أعشار المتر في الثانية)
- WT** = نوع الطقس، حيث يحدد ** نوع الطقس. القائمة الكاملة لأنواع الطقس هنا.
- DATA VALUE = قيمة بيانات من 5 أحرف لـ ELEMENT، أي قيمة القياس.
- M-FLAG = علامة قياس من حرف واحد. لها 10 قيم ممكنة. تشير بعض هذه القيم إلى أن دقة البيانات محل شك. نقبل البيانات عندما تكون هذه القيمة مضبوطة على “P” — أي مُعرَّفة على أنها مفقودة ويُفترض أنها صفر — لأن ذلك لا ينطبق إلا على قياسات PRCP وSNOW وSNWD.
- Q-FLAG هي علامة جودة القياس، ولها 14 قيمة ممكنة. ما يهمنا فقط هو البيانات ذات القيمة الفارغة، أي إنها لم تُخفِق في أي من فحوصات ضمان الجودة.
- S-FLAG هي علامة مصدر الرصد. وهي غير مفيدة لتحليلنا، لذا نتجاهلها.
- OBS-TIME = وقت الرصد مكوّن من 4 أحرف بتنسيق الساعة-الدقيقة (أي 0700 = 7:00 صباحًا). وعادةً لا يكون موجودًا في البيانات الأقدم. نتجاهله لأغراضنا.
qFlag مساويةً لسلسلة فارغة.
تنظيف البيانات
تحويل البيانات
GROUP BY بسيط، يمكننا إعادة تشكيل بياناتنا إلى هذه البنية. وللحد من الحمل الزائد على الذاكرة، ننفّذ ذلك على ملف واحد في كل مرة.
noaa.csv.
إثراء البيانات
noaa_enriched.parquet.
إنشاء جدول
إدخال البيانات إلى ClickHouse
الإدراج من ملف محلي
<path> المسار الكامل للملف المحلي على القرص.
اطّلع هنا على كيفية تسريع عملية التحميل هذه.