الانتقال إلى المحتوى الرئيسي
هذا امتداد لدالة الجدول hudi. يتيح معالجة الملفات من جداول Apache Hudi في Amazon S3 بالتوازي عبر العديد من العقد في عنقود محدد. على العقدة المُبادِرة، يُنشئ اتصالًا بجميع العقد في العنقود ويوزّع كل ملف ديناميكيًا. وعلى العقدة العاملة، يطلب من العقدة المُبادِرة المهمة التالية لمعالجتها ثم يعالجها. ويتكرر ذلك حتى تكتمل جميع المهام.

الصياغة

hudiCluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])

المعاملات

ArgumentDescription
cluster_nameاسم عنقود يُستخدم لبناء مجموعة من العناوين ومعاملات الاتصال بالخوادم البعيدة والمحلية.
urlBucket URL يتضمن المسار إلى Hudi table موجود في S3.
aws_access_key_id, aws_secret_access_keyبيانات اعتماد طويلة الأمد لمستخدم حساب AWS. يمكنك استخدامها لمصادقة طلباتك. هذه المعاملات اختيارية. إذا لم يتم تحديد بيانات الاعتماد، فستُستخدم من إعدادات ClickHouse. لمزيد من المعلومات، راجع Using S3 for Data Storage.
formatformat الخاص بالملف.
structureبنية الجدول. التنسيق: 'column1_name column1_type, column2_name column2_type, ...'.
compressionهذه المعلمة اختيارية. القيم المدعومة: none, gzip/gz, brotli/br, xz/LZMA, zstd/zst. بشكل افتراضي، سيُكتشف الضغط تلقائيًا من امتداد الملف.
extra_credentialsهذه المعلمة اختيارية. تُستخدم لتمرير role_arn من أجل role-based access في ClickHouse Cloud. راجع Secure S3 للاطلاع على خطوات الإعداد.

القيمة المُعادة

جدول ذو البنية المحددة لقراءة البيانات من العنقود في جدول Hudi المحدد على S3.

الأعمدة الافتراضية

  • _path — مسار الملف. النوع: LowCardinality(String).
  • _file — اسم الملف. النوع: LowCardinality(String).
  • _size — حجم الملف بالبايت. النوع: Nullable(UInt64). إذا كان حجم الملف غير معروف، تكون القيمة NULL.
  • _time — وقت آخر تعديل للملف. النوع: Nullable(DateTime). إذا كان الوقت غير معروف، تكون القيمة NULL.
  • _etag — قيمة etag للملف. النوع: LowCardinality(String). إذا كانت قيمة etag غير معروفة، تكون القيمة NULL.
آخر تعديل في ٢٥ يونيو ٢٠٢٦