Map(K, V) أزواج المفتاح-القيمة.
بخلاف قواعد البيانات الأخرى، لا تكون المفاتيح في الخرائط فريدة في ClickHouse، أي يمكن أن تحتوي الخريطة على عنصرين بالمفتاح نفسه.
(ويعود ذلك إلى أن الخرائط تُنفَّذ داخليًا على هيئة Array(Tuple(K, V)).)
يمكنك استخدام الصياغة m[k] للحصول على قيمة المفتاح k في الخريطة m.
كذلك، تقوم m[k] بمسح الخريطة، أي إن زمن تنفيذ العملية يزداد خطيًا مع حجم الخريطة.
المعلمات
K— نوع مفاتيح Map. يمكن أن يكون أي نوع باستثناء Nullable وLowCardinality المتداخل مع أنواع Nullable.V— نوع قيم Map. يمكن أن يكون أي نوع.
Query
key2:
Query
Response
k موجودًا في الـ map، فإن m[k] تُرجع القيمة الافتراضية لنوع القيمة، مثل 0 لأنواع الأعداد الصحيحة و '' لأنواع السلاسل النصية.
للتحقق مما إذا كان مفتاح ما موجودًا في map، يمكنك استخدام الدالة mapContains.
Query
Response
تحويل Tuple إلى Map
Tuple() إلى قيم من النوع Map() باستخدام الدالة CAST:
مثال
Query
Response
قراءة الأعمدة الفرعية في Map
keys وvalues.
مثال
Query
Response
التسلسل المُقسَّم إلى buckets لـ Map في MergeTree
Map في MergeTree كتدفّق واحد من Array(Tuple(K, V)).
تتطلّب قراءة مفتاح واحد باستخدام m['key'] فحص العمود بأكمله — أي كل زوج مفتاح-قيمة في كل صف — حتى إذا كان المطلوب مفتاحًا واحدًا فقط.
وبالنسبة إلى maps التي تحتوي على عدد كبير من المفاتيح المميّزة، يصبح ذلك عنق زجاجة.
يُقسِّم التسلسل المُقسَّم إلى buckets (with_buckets) أزواج المفتاح-القيمة إلى عدة تدفّقات فرعية مستقلة (buckets) عبر تطبيق hash على المفتاح.
وعندما يصل الاستعلام إلى m['key']، لا يُقرأ من القرص إلا الـ bucket الذي يحتوي على ذلك المفتاح، مع تخطّي جميع الـ buckets الأخرى.
تمكين التسلسل بالتقسيم إلى دلاء
basic للأجزاء من المستوى الصفري (التي أُنشئت أثناء INSERT) واستخدام with_buckets فقط للأجزاء الناتجة عن الدمج:
كيف يعمل
with_buckets:
- يُحسَب متوسط عدد المفاتيح لكل صف من إحصاءات block.
- يُحدَّد عدد buckets وفقًا للاستراتيجية المُعدّة (راجع الإعدادات).
- يُسنَد كل زوج مفتاح-قيمة إلى bucket عن طريق تطبيق hash على المفتاح:
bucket = hash(key) % num_buckets. - يُخزَّن كل bucket باعتباره substream مستقلًا له مفاتيحه وقيمه وoffsets الخاصة به.
- يسجّل stream البيانات الوصفية
buckets_infoعدد buckets والإحصاءات.
m['key'])، يعيد المُحسِّن كتابة expression إلى subcolumn للمفتاح (m.key_<serialized_key>).
ثم تحسب طبقة التسلسل bucket الذي ينتمي إليه المفتاح المطلوب، ولا تقرأ من disk سوى ذلك bucket الواحد.
عند قراءة map بالكامل (مثل SELECT m)، تُقرأ جميع buckets ويُعاد تجميعها لتكوين map الأصلي. ويكون ذلك أبطأ من تسلسل basic بسبب overhead الناتج عن قراءة عدة substreams ودمجها.
قد يختلف ترتيب المفاتيح داخل قيمة map عن ترتيب insertion الأصلي عند استخدام تسلسل
with_buckets. تُوزَّع المفاتيح على buckets باستخدام hash، ثم يُعاد تجميعها بحسب ترتيب buckets لا ترتيب insertion. أما مع تسلسل basic، فيُحفَظ ترتيب المفاتيح في maps المُدرجة.basic وwith_buckets في table نفسها، وتُدمَج هذه الأجزاء بشفافية.
الإعدادات
| الإعداد | الافتراضي | الوصف |
|---|---|---|
map_serialization_version | basic | تنسيق التسلسل لأعمدة Map. يخزّن basic البيانات كتدفق Array واحد. ويقسّم with_buckets المفاتيح إلى حاويات لتسريع قراءات المفتاح الواحد. |
map_serialization_version_for_zero_level_parts | basic | تنسيق التسلسل للأجزاء ذات المستوى الصفري (التي يتم إنشاؤها بواسطة INSERT). يتيح الإبقاء على basic لعمليات الإدراج لتجنّب عبء الكتابة الإضافي، بينما تستخدم الأجزاء المدمجة with_buckets. |
max_buckets_in_map | 32 | الحد الأعلى لعدد الحاويات. يعتمد العدد الفعلي على map_buckets_strategy. والحد الأقصى المسموح به هو 256. |
map_buckets_strategy | sqrt | استراتيجية حساب عدد الحاويات من متوسط حجم الخريطة: constant — استخدم دائمًا max_buckets_in_map؛ sqrt — استخدم round(coefficient * sqrt(avg_size))؛ linear — استخدم round(coefficient * avg_size). تُقيَّد النتيجة ضمن [1, max_buckets_in_map]. |
map_buckets_coefficient | 1.0 | المعامل المضاعِف لاستراتيجيتي sqrt وlinear. ويُتجاهل عندما تكون الاستراتيجية constant. |
map_buckets_min_avg_size | 32 | الحد الأدنى لمتوسط عدد المفاتيح لكل صف لتمكين التقسيم إلى حاويات. إذا كان المتوسط أقل من هذه العتبة، فستُستخدم حاوية واحدة بغض النظر عن الإعدادات الأخرى. اضبطه على 0 لتعطيل هذه العتبة. |
مقايضات الأداء
with_buckets على الأداء مقارنةً بتنسيق التسلسل basic عند أحجام مختلفة لـ Map (من 10 إلى 10,000 مفتاح لكل صف). وقد حُدِّد عدد الحاويات باستخدام استراتيجية sqrt بحد أقصى 32. وتعتمد الأرقام الدقيقة على أنواع المفاتيح/القيم، وتوزيع البيانات، والأجهزة.
| العملية | 10 مفاتيح | 100 مفتاح | 1,000 مفتاح | 10,000 مفتاح | ملاحظات |
|---|---|---|---|---|---|
بحث عن مفتاح واحد (m['key']) | أسرع بمقدار 1.6–3.2x | أسرع بمقدار 4.5–7.7x | أسرع بمقدار 16–39x | أسرع بمقدار 21–49x | يقرأ حاوية واحدة فقط بدلًا من العمود بالكامل. |
| 5 عمليات بحث عن مفاتيح | ~1x | أسرع بمقدار 1.5–3.1x | أسرع بمقدار 2.9–8.3x | أسرع بمقدار 4.5–6.7x | يقرأ كل مفتاح حاويته الخاصة؛ وقد تتداخل بعض الحاويات. |
PREWHERE (SELECT m WHERE m['key'] = ...) | أسرع بمقدار 1.5–3.0x | أسرع بمقدار 2.9–7.3x | أسرع بمقدار 5.3–31x | أسرع بمقدار 20–45x | لا يقرأ عامل التصفية PREWHERE سوى حاوية واحدة؛ ولا تُقرأ الـ Map كاملة إلا للصفوف المطابقة. تعتمد الزيادة في السرعة على الانتقائية — فكلما قلّ عدد الحبيبات المطابقة، انخفضت عمليات الإدخال/الإخراج الخاصة بقراءة الـ Map كاملة. |
فحص الـ Map بالكامل (SELECT m) | أبطأ بحوالي 2x | أبطأ بحوالي 2x | أبطأ بحوالي 2x | أبطأ بحوالي 2x | يجب قراءة جميع الحاويات وإعادة تجميعها. |
| INSERT | أبطأ بمقدار 1.5–2.5x | أبطأ بمقدار 1.5–2.5x | أبطأ بمقدار 1.5–2.5x | أبطأ بمقدار 1.5–2.5x | كلفة إضافية ناتجة عن تجزئة المفاتيح والكتابة إلى عدة تدفقات فرعية. |
التوصيات
- الخرائط الصغيرة (أقل من 32 مفتاحًا في المتوسط): أبقِ على التسلسل
basic. لا يبرَّر العبء الإضافي للتقسيم إلى buckets مع الخرائط الصغيرة. وتفرض القيمة الافتراضيةmap_buckets_min_avg_size = 32ذلك تلقائيًا. - الخرائط المتوسطة (32–100 مفتاح): استخدم
with_bucketsمع استراتيجيةsqrtإذا كانت الاستعلامات تصل كثيرًا إلى مفاتيح فردية. تتراوح زيادة السرعة بين 4x و8x لعملياتlookupعلى مفتاح واحد. - الخرائط الكبيرة (100+ مفتاح): استخدم
with_buckets. تكون عملياتlookupعلى مفتاح واحد أسرع بمقدار 16x إلى 49x. فكّر في استخدامmap_serialization_version_for_zero_level_parts = 'basic'للحفاظ على سرعةinsertقريبة من الخط الأساسي. - إذا كانت عمليات الفحص الكامل للخريطة هي المهيمنة على عبء العمل: أبقِ على
basic. يضيف bucketed serialization عبئًا إضافيًا يقارب 2x عند الفحص الكامل. - عبء عمل مختلط (بعض عمليات
lookupللمفاتيح، وبعض عمليات الفحص الكامل): استخدمwith_bucketsمع ضبط zero-level parts علىbasic. يقرأ تحسينPREWHEREالـ bucket ذي الصلة فقط من أجلfilter، ثم يقرأ الخريطة كاملةً فقط للصفوف المطابقة، مما يحقق زيادة صافية كبيرة في السرعة.
أساليب بديلة
Map المُقسَّم إلى مجموعات مناسبًا لسيناريو استخدامك، فهناك أسلوبان بديلان لتحسين أداء الوصول على مستوى المفاتيح:
استخدام نوع بيانات JSON
max_dynamic_paths فتُنقل إلى بنية بيانات مشتركة، والتي يمكنها استخدام التسلسل advanced لتحسين قراءة المسار الواحد. راجع منشور المدونة للحصول على نظرة عامة مفصلة على التسلسل advanced.
| الجانب | Map with buckets | JSON |
|---|---|---|
| قراءة مفتاح واحد | يقرأ bucket واحدًا (وقد يحتوي على مفاتيح أخرى). ويجري إلغاء تسلسل جميع أزواج المفتاح-القيمة في هذا bucket. | تُقرأ المسارات المتكررة مباشرةً من الأعمدة الفرعية الديناميكية. أما المسارات غير المتكررة فتذهب إلى البيانات المشتركة؛ ومع التسلسل advanced لا تُقرأ إلا بيانات المسار المطلوب فقط. |
| أنواع القيم | تشترك جميع القيم في النوع نفسه V | يمكن أن يكون لكل مسار نوعه الخاص. والمسارات التي لا تحتوي على تلميح نوع تستخدم Dynamic. |
| دعم skip index | يعمل مع بعض أنواع الفهارس المُنشأة على mapKeys/mapValues | لا يمكن إنشاء skip indexes إلا على الأعمدة الفرعية الخاصة بمسارات محددة، وليس على جميع المسارات/القيم دفعة واحدة. |
| قراءة العمود الكامل | أبطأ بحوالي ~2x من basic بسبب إعادة تجميع buckets | يوجد عبء إضافي ناتج عن ترميز النوع Dynamic وإعادة بناء المسارات. |
| عبء التخزين | حد أدنى من البيانات الوصفية الإضافية | أعلى بسبب ترميز النوع Dynamic، وتخزين أسماء المسارات، وبيانات وصفية إضافية في التسلسل advanced. |
| مرونة المخطط | تكون أنواع المفاتيح والقيم ثابتة عند إنشاء الجدول | ديناميكي بالكامل — يمكن أن تختلف المفاتيح وأنواع القيم من صف إلى آخر. ويمكن تعريف تلميحات أنواع لمسارات معروفة للوصول المباشر إلى العمود الفرعي. |
JSON عندما تحتاج المفاتيح المختلفة إلى أنواع قيم مختلفة، أو عندما تختلف مجموعة المفاتيح بشكل كبير بين الصفوف، أو عندما تكون المفاتيح كثيرة الاستخدام معروفة مسبقًا ويمكن تعريفها كمسارات ذات أنواع محددة للوصول المباشر إلى العمود الفرعي.
التقسيم اليدوي إلى عدة أعمدة Map
Map واحدة يدويًا إلى عدة أعمدة بناءً على تجزئة المفتاح على مستوى التطبيق:
m{hash(key) % 4}. وأثناء الاستعلامات، اقرأ من العمود المحدد: m{hash('target_key') % 4}['target_key'].
| الجانب | Map مع buckets | التجزئة اليدوية |
|---|---|---|
| سهولة الاستخدام | شفافة — يتولاها محرك التخزين | تتطلب منطق توجيه على مستوى التطبيق لعمليات insert وselect |
| الدمج العمودي | غير مدعوم — جميع الـbuckets تنتمي إلى عمود واحد | مدعوم — كل عمود Map مستقل ويمكن دمجه عموديًا |
| تغييرات المخطط | يتكيّف عدد الـbuckets تلقائيًا لكل جزء | يتطلب تغيير عدد الأجزاء إعادة كتابة البيانات أو إضافة أعمدة جديدة |
| صياغة الاستعلام | m['key'] تعمل مباشرة | يجب حساب العمود الصحيح: m0['key'], m1['key']، إلخ. |
| مستوى التقسيم | لكل جزء، ويتكيّف مع إحصاءات البيانات | ثابت عند إنشاء table |
- الدالة map()
- الدالة CAST()
- المُركِّب -Map لنوع البيانات Map