دالة الجدول hdfs
البنية
الوسائط
| الوسيطة | الوصف |
|---|---|
URI | عنوان URI النسبي للملف في HDFS. يدعم مسار الملف أنماط globs التالية في وضع readonly: *، ?، {abc,def} و {N..M}، حيث إن N و M — أرقام، و'abc' و'def' — سلاسل نصية. |
format | صيغة الملف. |
structure | بنية الجدول. الصيغة: 'column1_name column1_type, column2_name column2_type, ...'. |
القيمة المُعادة
hdfs://hdfs1:9000/test واختيار أول صفين منه:
أنماط globs في المسار
globbing. ويجب أن تطابق الملفات نمط المسار بالكامل، وليس اللاحقة أو البادئة فقط.
*— يمثّل أي عدد من المحارف باستثناء/، بما في ذلك السلسلة الفارغة.**— يمثّل جميع الملفات داخل مجلد بشكل تكراري.?— يمثّل محرفًا واحدًا عشوائيًا.{some_string,another_string,yet_another_one}— يستبدل أيًّا من السلاسل'some_string', 'another_string', 'yet_another_one'. ويمكن أن تحتوي السلاسل على الرمز/.{N..M}— يمثّل أي عدد>= Nو<= M.
{} مشابهة لدوال الجداول remote و file.
مثال
- لنفترض أن لدينا عدة ملفات بعناوين URI التالية على HDFS:
- ‘hdfs://hdfs1:9000/some_dir/some_file_1’
- ‘hdfs://hdfs1:9000/some_dir/some_file_2’
- ‘hdfs://hdfs1:9000/some_dir/some_file_3’
- ‘hdfs://hdfs1:9000/another_dir/some_file_1’
- ‘hdfs://hdfs1:9000/another_dir/some_file_2’
- ‘hdfs://hdfs1:9000/another_dir/some_file_3’
- استعلم عن عدد الصفوف في هذه الملفات:
- استعلم عن عدد الصفوف في جميع ملفات هذين الدليلين:
إذا كانت قائمة الملفات لديك تتضمن نطاقات رقمية تبدأ بأصفار، فاستخدم الصيغة التي تعتمد على الأقواس المعقوفة لكل رقم على حدة، أو استخدم
?.file000 وfile001 و… وfile999:
الأعمدة الافتراضية
_path— مسار الملف. النوع:LowCardinality(String)._file— اسم الملف. النوع:LowCardinality(String)._size— حجم الملف بالبايت. النوع:Nullable(UInt64). إذا كان الحجم غير معروف، تكون القيمةNULL._time— وقت آخر تعديل للملف. النوع:Nullable(DateTime). إذا كان الوقت غير معروف، تكون القيمةNULL.
إعداد use_hive_partitioning
use_hive_partitioning إلى 1، سيكتشف ClickHouse التقسيم بأسلوب Hive في المسار (/name=value/)، وسيتيح استخدام أعمدة التقسيم كأعمدة افتراضية في الاستعلام. وستحمل هذه الأعمدة الافتراضية الأسماء نفسها الموجودة في مسار التقسيم.
مثال
استخدام عمود افتراضي أُنشئ باستخدام التقسيم بأسلوب Hive
إعدادات التخزين
- hdfs_truncate_on_insert - يسمح باقتطاع الملف قبل الإدراج فيه. يكون معطّلًا افتراضيًا.
- hdfs_create_new_file_on_insert - يسمح بإنشاء ملف جديد عند كل عملية إدراج إذا كان للتنسيق لاحقة. يكون معطّلًا افتراضيًا.
- hdfs_skip_empty_files - يسمح بتخطي الملفات الفارغة أثناء القراءة. يكون معطّلًا افتراضيًا.