Интеграция Apache Spark с ClickHouse

ClickHouse Supported

Apache Spark — это вычислительный движок с поддержкой нескольких языков для выполнения задач data engineering, data science и машинного обучения на отдельных узлах или в кластерах.

Существует два основных способа подключить Apache Spark к ClickHouse:

Spark Connector — коннектор Spark реализует DataSourceV2 и имеет собственное управление каталогом (Catalog). На данный момент это рекомендованный способ интеграции ClickHouse и Spark.
Spark JDBC — интеграция Spark и ClickHouse с использованием источника данных JDBC.

Оба решения успешно протестированы и полностью совместимы с различными API, включая Java, Scala, PySpark и Spark SQL.

Среды выполнения Spark

Стандартные среды выполнения Spark

Коннектор Spark работает из коробки в средах, которые в значительной степени соответствуют эталонной среде выполнения Apache Spark, таких как Amazon EMR или развертывания Spark в Kubernetes.

Управляемые платформы Spark

Такие платформы, как AWS Glue и Databricks, вводят дополнительные абстракции и поведение, зависящее от среды. Хотя основная интеграция остаётся прежней, они могут требовать отдельной конфигурации и дополнительных шагов настройки. Подробности см. на соответствующих страницах документации.

Среды выполнения Spark​

Стандартные среды выполнения Spark​

Управляемые платформы Spark​

Среды выполнения Spark

Стандартные среды выполнения Spark

Управляемые платформы Spark