数据摄取
ClickHouse 可与多种数据集成和转换解决方案配合使用。 如需了解更多信息,请参阅以下页面:
| Data Ingestion Tool | 描述 |
|---|---|
| Airbyte | 一个开源数据集成平台。它支持创建 ELT 数据管道,并开箱即用地提供 140 多个连接器。 |
| Apache Spark | 一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习任务。 |
| Apache Flink | 通过 Flink 的 DataStream API 将数据实时摄取到 ClickHouse 并进行处理,同时支持批量写入。 |
| Amazon Glue | 由 Amazon Web Services (AWS) 提供的一项全托管、无服务器的数据集成服务,可简化面向分析、机器学习和应用开发的数据发现、准备和转换过程。 |
| Artie | 一个全托管的实时数据流平台,可将生产数据复制到 ClickHouse,从而在生产环境中实现面向客户的分析、运营工作流和 Agentic AI。 |
| Azure Synapse | 由 Microsoft Azure 提供的一项全托管云端分析服务,结合大数据和数据仓库能力,利用 SQL、Apache Spark 和数据管道简化大规模数据集成、转换和分析。 |
| Azure Data Factory | 一项基于云的数据集成服务,使您能够大规模创建、调度和编排数据工作流。 |
| Apache Beam | 一个开源的统一编程模型,使开发者能够定义并执行批处理和流处理 (连续) 数据管道。 |
| BladePipe | 一款具有亚秒级延迟的实时端到端数据集成工具,可促进跨平台的无缝数据流动。 |
| dbt | 使分析工程师只需编写 select 语句,即可在其数据仓库中转换数据。 |
| dlt | 一个开源库,您可以将其添加到 Python 脚本中,以便将来自各种且通常较为杂乱的数据源的数据加载到结构良好的实时数据集中。 |
| Estuary | 一个 right-time 数据平台,支持构建具有毫秒级延迟的 ETL 管道,并提供灵活的部署选项。 |
| Fivetran | 一个自动化数据移动平台,可在您的云数据平台之间以及进出这些平台传输数据。 |
| NiFi | 一个开源工作流管理软件,旨在自动化软件系统之间的数据流。 |
| Vector | 一个高性能的可观测性数据管道,使组织能够掌控其可观测性数据。 |