Descripción
Primeros pasos
Uso
Política de versionado
- La versión principal se incrementa con cambios en la API
- La versión secundaria se incrementa con cambios de SQL compatibles con versiones anteriores
- La versión de parche se incrementa con cambios solo en el binario
- La versión de la biblioteca (definida por
PG_MODULE_MAGICen PostgreSQL 18 y posteriores) incluye la versión semántica completa, visible en la salida de la funciónpgch_version()o de la función de Postgrespg_get_loaded_modules(). - La versión de la extensión (definida en el archivo de control) incluye solo las versiones principal
y secundaria, visibles en la tabla
pg_catalog.pg_extension, la salida de la funciónpg_available_extension_versions()y\dx pg_clickhouse.
v0.1.0 a v0.1.1, beneficia a todas las bases de datos que han cargado v0.1 y
no necesitan ejecutar ALTER EXTENSION para aprovechar la actualización.
Por otro lado, una versión que incrementa las versiones secundaria o principal
irá acompañada de scripts de actualización de SQL, y todas las bases de datos existentes que contengan
la extensión deben ejecutar ALTER EXTENSION pg_clickhouse UPDATE para aprovechar
la actualización.
Referencia de SQL DDL
CREATE EXTENSION
WITH SCHEMA para instalarlo en un esquema concreto (recomendado):
ALTER EXTENSION
-
Después de instalar una nueva versión de pg_clickhouse, use la cláusula
UPDATE: -
Use
SET SCHEMApara mover la extensión a un nuevo esquema:
DROP EXTENSION
CASCADE para eliminarlos también:
CREATE SERVER
driver: El driver de conexión de ClickHouse que se va a usar, ya sea “binary” o “http”. Obligatorio.compression: Compresión del protocolo nativo para el driver “binary”, una de “none”, “lz4” o “zstd”. El valor predeterminado es “lz4”. El driver “http” la ignora.dbname: La base de datos de ClickHouse que se usará al conectarse. El valor predeterminado es “default”.fetch_size: Tamaño aproximado del batch en bytes para HTTP streaming. Los batches se dividen en los límites de las filas. El valor predeterminado es50000000(50 MB).0desactiva el streaming y almacena en búfer la respuesta completa. Las tablas foráneas pueden sobrescribir este valor.host: El nombre de host del servidor de ClickHouse. El valor predeterminado es “localhost”;port: El puerto del servidor de ClickHouse al que conectarse. Los valores predeterminados son los siguientes:- 9440 si
driveres “binary” yhostes un host de ClickHouse Cloud - 9004 si
driveres “binary” yhostno es un host de ClickHouse Cloud - 8443 si
driveres “http” yhostes un host de ClickHouse Cloud - 8123 si
driveres “http” yhostno es un host de ClickHouse Cloud
- 9440 si
min_tls_version: Versión mínima del protocolo TLS que se negociará en las conexiones que usan TLS. Una deTLSv1,TLSv1.1,TLSv1.2oTLSv1.3. El valor predeterminado es el mínimo propio de la biblioteca TLS. Se aplica a ambos drivers.secure: Controla TLS para la conexión. Uno de:auto(predeterminado): usa TLS cuandohostes un host de ClickHouse Cloud oportes un puerto seguro; texto no cifrado en caso contrario.on(otrue/yes/1): usa siempre TLS.porttoma por defecto el valor 8443 (“http”) o 9440 (“binary”).off(ofalse/no/0): no usa nunca TLS.porttoma por defecto el valor 8123 (“http”) o 9000 (“binary”).
ALTER SERVER
DROP SERVER
CASCADE para
eliminar también esas dependencias:
CREATE USER MAPPING
taxi_srv:
user: El nombre del usuario de ClickHouse. El valor predeterminado es “default”.password: La contraseña del usuario de ClickHouse.
ALTER USER MAPPING
DROP USER MAPPING
IMPORT FOREIGN SCHEMA
LIMIT TO para limitar la importación a tablas específicas:
EXCEPT para excluir tablas:
CREATE FOREIGN TABLE
database: El nombre de la base de datos remota. De forma predeterminada, usa la base de datos definida para el servidor foráneo.fetch_size: Tamaño aproximado del Batch en bytes para HTTP streaming. Sobrescribe elfetch_sizea nivel de servidor. De forma predeterminada, es50000000(50 MB).0desactiva el streaming y almacena en búfer la respuesta completa.table_name: El nombre de la tabla remota. De forma predeterminada, usa el nombre especificado para la tabla foránea.engine: El [motor de tabla] usado por la tabla de ClickHouse. ParaCollapsingMergeTree()yAggregatingMergeTree(), pg_clickhouse aplica automáticamente los parámetros a las expresiones de función ejecutadas en la tabla.
-
column_name: El nombre de la columna en el lado de ClickHouse, usado con preferencia al nombre del atributo de PostgreSQL al reconstruir consultas e inserciones. Es útil para mapear nombres de columna de PostgreSQL en minúsculas y sin comillas a columnas de ClickHouse sensibles a mayúsculas y minúsculas; por ejemplo, -
AggregateFunction: El nombre de la función de agregado aplicada a una columna de [tipo AggregateFunction]. Mapee el tipo de dato al tipo de ClickHouse pasado a la función y especifique el nombre de la función de agregado mediante la opción de columna adecuada; pg_clickhouse añadirá automáticamenteMergea la función de agregado que evalúe la columna. -
SimpleAggregateFunction: El nombre de la función de agregado aplicada a una columna de [tipo SimpleAggregateFunction]. Mapee el tipo de dato al tipo de ClickHouse pasado a la función y especifique el nombre de la función de agregado mediante la opción de columna adecuada.
ALTER FOREIGN TABLE
DROP FOREIGN TABLE
CASCADE para eliminarlos también:
Referencia de SQL DML
EXPLAIN
VERBOSE provoca que se emita la
consulta de ClickHouse “Remote SQL”:
SELECT
nodes y hacemos un JOIN con ella en lugar de con la tabla remota:
node_id en lugar de por la columna local, y luego hacer el join
con la tabla de búsqueda más adelante:
node_id, lo que reduce
el número de filas que deben volver a Postgres de 1000 (todas
ellas) a solo 8, una por cada nodo.
PREPARE, EXECUTE, DEALLOCATE
{param:type}:
parámetros:
INSERT
COPY
⚠️ Limitaciones de la API de inserción por lotes pg_clickhouse aún no admite la API de inserción por lotes del FDW de PostgreSQL. Por lo tanto, COPY utiliza actualmente sentencias INSERT para insertar registros. Esto se mejorará en una futura versión.
LOAD
SET
pg_clickhouse.session_settings
pg_clickhouse.session_settings configura la [configuración de ClickHouse] que se establecerá en las consultas posteriores. Ejemplo:
join_use_nulls 1, group_by_use_nulls 1, final 1. Establézcalo en una
cadena vacía para usar la configuración del servidor de ClickHouse.
date_time_output_format: el controlador HTTP requiere que sea “iso”format_tsv_null_representation: el controlador HTTP requiere el valor predeterminadooutput_format_tsv_crlf_end_of_lineel controlador HTTP requiere el valor predeterminado
pg_clickhouse.session_settings; use [precarga de bibliotecas compartidas] o
simplemente use uno de los objetos de la extensión para asegurarse de que se cargue.
pg_clickhouse.pushdown_regex
pg_clickhouse.pushdown_regex controla si pg_clickhouse
realiza pushdown de las funciones y los operadores de expresiones regulares. Lo hace de forma predeterminada;
establezca este parámetro en false para evitarlo:
ALTER ROLE
SET de ALTER ROLE para precargar pg_clickhouse
y/o SET sus parámetros para determinados roles:
RESET de ALTER ROLE para restablecer la precarga de pg_clickhouse
y/o los parámetros:
Precarga
session_preload_libraries
Tipos de datos
| ClickHouse | PostgreSQL | Notas |
|---|---|---|
| Bool | boolean | |
| Date | date | |
| Date32 | date | |
| DateTime | timestamptz | |
| Decimal | numeric | |
| Float32 | real | |
| Float64 | double precision | |
| IPv4 | inet | |
| IPv6 | inet | |
| Int16 | smallint | |
| Int32 | integer | |
| Int64 | bigint | |
| Int8 | smallint | |
| JSON | jsonb, json | |
| String | text, bytea | |
| UInt16 | integer | |
| UInt32 | bigint | |
| UInt64 | bigint | Da error con valores > BIGINT max |
| UInt8 | smallint | |
| UUID | uuid |
BYTEA
SELECT final generará:
Referencia de funciones y operadores
Funciones
clickhouse_raw_query
host=localhost port=8123. Los parámetros de conexión
admitidos son:
host: El host al que conectarse; obligatorio.port: El puerto HTTP al que conectarse; el valor predeterminado es8123, salvo quehostsea un host de ClickHouse Cloud, en cuyo caso el valor predeterminado es8443dbname: El nombre de la base de datos a la que conectarse.username: El nombre de usuario con el que conectarse; el valor predeterminado esdefaultpassword: La contraseña que se usará para autenticarse; de forma predeterminada no hay contraseña
EXECUTE a esta función; considere usar GRANT
para otorgar acceso solo a los roles que realmente necesiten ejecutar consultas ad hoc de ClickHouse,
por ejemplo, un rol de administrador de ClickHouse dedicado:
Útil para consultas que no devuelven registros, pero las consultas que sí devuelven valores
se devolverán como un único valor de texto:
Funciones pushdown
pg_clickhouse aplica pushdown a un subconjunto de las funciones integradas de PostgreSQL que se usan
en condicionales (cláusulas HAVING y WHERE). Ese subconjunto se corresponde con los
equivalentes en ClickHouse de la siguiente manera:
abs: absfactorial: factorialmod(int2/int4/int8/numeric): módulopow&power(float8/numeric): powround: roundsin,cos,tan,atan,atan2,sinh,cosh,tanh,asinh,degrees,radians,pi: funciones matemáticas de ClickHouse con el mismo nombre.asin,acos,atanh,acoshno se delegan: PG produce un error con entradas fuera de rango, mientras que CH devuelveNaN.date_part:date_part('day'): toDayOfMonthdate_part('doy'): toDayOfYeardate_part('dow'): toDayOfWeekdate_part('year'): toYeardate_part('month'): toMonthdate_part('hour'): toHourdate_part('minute'): toMinutedate_part('second'): toSeconddate_part('quarter'): toQuarterdate_part('isoyear'): toISOYeardate_part('week'): toISOYeardate_part('epoch'): toISOYear
date_trunc:date_trunc('week'): toMondaydate_trunc('second'): toStartOfSeconddate_trunc('minute'): toStartOfMinutedate_trunc('hour'): toStartOfHourdate_trunc('day'): toStartOfDaydate_trunc('month'): toStartOfMonthdate_trunc('quarter'): toStartOfQuarterdate_trunc('year'): toStartOfYear
extract(field FROM source): mismas equivalencias quedate_partdate(timestamp)&date(timestamptz): toDate (se muestra como alias de CHdate)array_position: indexOfarray_cat: arrayConcatarray_append: arrayPushBackarray_prepend: arrayPushFrontarray_remove: arrayRemovearray_length&cardinality: lengtharray_to_string: arrayStringConcatstring_to_array: splitByStringsplit_part: splitByString + subíndice del arraytrim_array: arrayResizearray_fill: arrayWithConstantarray_reverse: arrayReversearray_shuffle: arrayShufflearray_sample: arrayRandomSamplearray_sort: arraySort / arrayReverseSortbtrim: trimBothltrim: ltrimrtrim: rtrimconcat_ws: concatWithSeparatorlower(text): lowerUTF8upper(text): upperUTF8substring(text, ...)&substr(text, ...): substringUTF8substring(bytea, ...)&substr(bytea, ...): substringlength(text): lengthUTF8length(bytea)&octet_length: lengthreverse(text): reverseUTF8reverse(bytea): reversestrpos: positionUTF8regexp_like: matchregexp_match: extractGroups si la expresión regular contiene subexpresiones entre paréntesis; en caso contrario, extractAll recortado con arraySlice.regexp_replace: replaceRegexpOne o replaceRegexpOne cuando está presente la marcagregexp_split_to_array: splitByRegexpmd5: MD5json_extract_path_text: sintaxis de subcolumnasjson_extract_path: toJSONString + sintaxis de subcolumnasjsonb_extract_path_text: sintaxis de subcolumnasjsonb_extract_path: toJSONString + sintaxis de subcolumnasbit_count(bytea): bitCountto_timestamp(float8): fromUnixTimestampto_char(timestamp[tz], fmt): formatDateTime cuandofmtes una constante de cadena cuyas palabras clave tienen cada una un equivalente fiel en ClickHouse. Consulta to_char() en las Notas de compatibilidad para ver las palabras clave admitidas. En caso contrario, la función se evalúa localmente en PostgreSQL.statement_timestamp,transaction_timestamp, &clock_timestamp: nowInBlock64 (nowInBlock64(9, $session_timezone))CURRENT_DATE: now y toDate (toDate(now($session_timezone)))now,CURRENT_TIMESTAMP, &LOCALTIMESTAMP: now64 (now64(9, $session_timezone))CURRENT_TIMESTAMP(n)&LOCALTIMESTAMP(n): now64 (now64(n, $session_timezone))CURRENT_DATABASE: Se pasa como valor desde una función de PostgreSQL.CURRENT_SCHEMA: Se pasa como valor de la función de PostgreSQL.CURRENT_CATALOG: Se pasa como valor desde una función de PostgreSQL.CURRENT_USER: Se pasa como valor desde una función de PostgreSQL.USER: Se pasa como valor desde una función de PostgreSQL.CURRENT_ROLE: Se pasa como valor desde la función de PostgreSQL.SESSION_USER: Se pasa como valor de la función de PostgreSQL.
Operadores pushdown
- Segmento de Array (
arr[L:U]): arraySlice @>(el array contiene): hasAll<@(array contenido en): hasAll&&(solapamiento de arrays): hasAny~(coincidencia de regexp): match!~(sin coincidencia de regexp): match~*(regexp sin distinguir mayúsculas de minúsculas, sin coincidencia): match!~*(regexp sin distinguir mayúsculas de minúsculas, sin coincidencia): match->>(extraer elemento de JSON/JSONB como texto): sintaxis de subcolumnas->(extracción de JSON/JSONB): toJSONString + sintaxis de subcolumnas
Funciones personalizadas
pg_clickhouse permiten el pushdown de consultas externas
para ciertas funciones de ClickHouse que no tienen equivalentes en PostgreSQL. Si
alguna de estas funciones no puede enviarse mediante pushdown, lanzará una excepción.
Pushdown de extensiones
re2
re2match→ matchre2extract→ extractre2extractall→ extractAllre2regexpextract→ regexpExtractre2extractgroups→ extractGroupsre2replaceregexpone→ replaceRegexpOnere2replaceregexpall→ replaceRegexpAllre2countmatches→ countMatchesre2countmatchescaseinsensitive→ countMatchesCaseInsensitivere2multimatchany→ multiMatchAnyre2multimatchanyindex→ multiMatchAnyIndexre2multimatchallindices→ multiMatchAllIndices
intarray
idx→ indexOf
fuzzystrmatch
soundex: soundexlevenshtein(2-arg): editDistanceUTF8
Conversiones de tipos con pushdown
CAST(x AS bigint) para
tipos de datos compatibles. En el caso de tipos incompatibles, el pushdown fallará; si x en este
ejemplo es un UInt64 de ClickHouse, ClickHouse se negará a convertir el valor.
Para aplicar pushdown a conversiones de tipos a tipos de datos incompatibles, pg_clickhouse proporciona
las siguientes funciones. Generan una excepción en PostgreSQL si no se
aplican con pushdown.
Funciones de agregación con pushdown
Agregados personalizados
pg_clickhouse permiten
el pushdown de consultas externas para determinadas funciones de agregación de ClickHouse que no tienen equivalentes
en PostgreSQL. Si alguna de estas funciones no puede aplicarse mediante pushdown, generará
una excepción.
Pushdown de funciones de agregado de conjuntos ordenados
ORDER BY como argumentos. Por ejemplo, esta consulta de PostgreSQL:
ORDER BY, DESC y NULLS FIRST
no son compatibles y provocarán un error.
percentile_cont(double): quantilequantile(double): quantilequantileExact(double): quantileExact
Funciones de ventana con pushdown
OVER (PARTITION BY ... ORDER BY ...), incluidas las especificaciones de frame
cuando corresponde.
- row_number
- rank
- dense_rank
- ntile
- cume_dist
- percent_rank
- lead
- lag
- first_value
- last_value
- nth_value
min/max(con cláusulaOVER)
row_number, rank, dense_rank, ntile, cume_dist,
percent_rank) omiten su cláusula de frame durante el pushdown porque ClickHouse
rechaza las especificaciones de frame en estas funciones.
Notas de compatibilidad
Expresiones regulares
-
PostgreSQL admite [expresiones regulares POSIX], mientras que ClickHouse admite
expresiones regulares RE2. Tenga cuidado con las diferencias de comportamiento: use RE2
cuando la expresión regular vaya a ser evaluada por ClickHouse (p. ej., en una
cláusula
WHERE) y POSIX cuando vaya a ser evaluada por Postgres (p. ej., en una cláusulaSELECT). -
pg_clickhouse hace pushdown de los [indicadores de Postgres] al anteponerlos a la expresión regular de ClickHouse dentro de
(?). Por ejemplo:Pasa a ser -
Los únicos indicadores que admiten ambos y que, por lo tanto, pueden usarse al ser evaluados por
ClickHouse son:
RE2 solo admite estos modificadores; no uses otros [modificadores de Postgres].
Indicador Como Notas iicoincidencia sin distinguir entre mayúsculas y minúsculas mm-s^y$coinciden con el inicio/final de línea, además del inicio/final del textonm-salias de Postgres de mp-sno permitir que .y[^x]coincidan con\nsspermitir que .y[^x]coincidan con\ntsintaxis estricta; se ignora wmcoincidencia parcial inversa sensible a los saltos de línea -
Esta tabla resume los efectos de los distintos modificadores (y de no usar ninguno, que
equivale a
s) al hacer coincidir saltos de línea y finales de línea. Tenga en cuenta que en Postgres,mypimpiden que las clases de caracteres negadas ([^xyz]) coincidan con un salto de línea, mientras que los equivalentes de ClickHouse no. Por lo demás, el comportamiento es el mismo en ClickHouse que en Postgres:Patrón aplicado a a\nbPostgres ClickHouse ¿Coincide? a.btrue true ✔︎ a[^x]btrue true ✔︎ a$false false ✔︎ Indicador s(?s)a.btrue true ✔︎ (?s)a[^x]btrue true ✔︎ (?s)a$false false ✔︎ Indicador m(?m)a.bfalse false ✔︎ (?m)a[^x]btrue false ✘ (?m)a$true true ✔︎ Indicador p(?p)a.bfalse false ✔︎ (?p)a[^x]btrue false ✘ (?p)a$false false ✔︎ Indicador w(?w)a.btrue true ✔ (?w)a[^x]btrue true ✔ (?w)a$true true ✔ - Cualquier otro indicador pasado a las funciones de expresiones regulares impedirá el pushdown de la función.
-
La excepción es
regexp_replace(), que también admite el indicadorg. Cuandogestá activado, pg_clickhouse usareplaceRegexpAll()en lugar dereplaceRegexpOne()y elimina el indicador antes de anteponer otros indicadores. -
El argumento de reemplazo de
regexp_replace()de Postgres admite\¶ referirse a la coincidencia completa, mientras que en ClickHouse se usa\0para la coincidencia completa. Asegúrate de usar\0cuando la función haga pushdown a ClickHouse. -
Postgres
regexp_matchdevuelveNULLcuando no hay coincidencias, mientras que las expresiones a las que se les hace pushdown devuelven un arreglo vacío. UseCOALESCE()para devolver un arreglo vacío en lugar deNULLy así poder comparar los valores devueltos de forma compatible. Por ejemplo:
to_char()
to_char() para timestamp y timestamp with time zone
solo hace pushdown a ClickHouse formatDateTime cuando el argumento de formato
es una constante de cadena no NULL en la que todas las palabras clave de PostgreSQL
tienen un equivalente idéntico byte por byte en ClickHouse. Si el formato es dinámico
(no es una Const), o contiene alguna palabra clave o modificador no admitido, la
llamada vuelve a evaluarse localmente en PostgreSQL — nunca se
intenta el pushdown con una traducción parcial, por lo que la salida sigue siendo compatible con PG.
Las variantes de to_char() de dos argumentos sobre numeric, interval y otros
tipos que no son de marca de tiempo nunca hacen pushdown; ClickHouse formatDateTime solo
da formato a valores de fecha y hora.
Palabras clave traducidas
| PostgreSQL | ClickHouse | Significado |
|---|---|---|
YYYY, yyyy | %Y | año de 4 dígitos |
YY, yy | %y | año de 2 dígitos |
MM, mm | %m | mes con relleno de ceros (01–12) |
DD, dd | %d | día del mes con relleno de ceros (01–31) |
DDD, ddd | %j | día del año con relleno de ceros (001–366) |
HH24, hh24 | %H | hora de 24 horas con relleno de ceros (00–23) |
HH, hh, HH12, hh12 | %I | hora de 12 horas con relleno de ceros (01–12) |
MI, mi | %i | minuto con relleno de ceros (00–59) |
SS, ss | %S | segundo con relleno de ceros (00–59) |
Q, q | %Q | trimestre (1–4) |
Mon | %b | nombre abreviado del mes, p. ej., Oct |
Dy | %a | nombre abreviado del día de la semana, p. ej., Mon |
AM, PM | %p | indicador AM/PM, siempre en mayúsculas |
Texto y literales entre comillas
"..." se pasa literalmente, y cualquier % literal
se duplica como %% para escapar el prefijo de especificador de ClickHouse. Un \" fuera de
las comillas también se pasa como un " literal. Dentro de "...", la barra invertida
solo escapa "; las demás secuencias con barra invertida se tratan como texto literal.
David E. Wheeler