第三方專案 | Apache Spark - Spark 繁體中文

此頁面追蹤補充 Apache Spark 並加入其生態系統的外部軟體專案。

與 PySpark 整合的熱門函式庫

great-expectations - 隨時了解資料的預期
Apache Airflow - 用於以程式方式撰寫、排程和監控工作流程的平台
xgboost - 可擴充、可攜式且分散的梯度提升
shap - 一種博弈論方法，用於解釋任何機器學習模型的輸出
python-deequ - 衡量大型資料集中的資料品質
datahub - 現代資料堆疊的元資料平台
dbt-spark - 讓 dbt 能與 Apache Spark 搭配使用

連接器

spark-redshift - Apache Spark 的高效能 Redshift 資料來源
spark-sql-connector - SQL Server 和 Azure SQL 的 Apache Spark 連接器
azure-cosmos-spark - Azure Cosmos DB 的 Apache Spark 連接器
azure-event-hubs-spark - 使用 Apache Spark 和 Azure Event Hubs 進行連續資料處理
azure-kusto-spark - Azure Kusto 的 Apache Spark 連接器
mongo-spark - MongoDB Spark 連接器
couchbase-spark-connector - 官方 Couchbase Spark 連接器
spark-cassandra-connector - Apache Spark 至 Apache Cassandra 的 DataStax 連接器
elasticsearch-hadoop - Elasticsearch 即時搜尋和分析與 Spark 原生整合
neo4j-spark-connector - Apache Spark 的 Neo4j 連接器
starrocks-connector-for-apache-spark - StarRocks Apache Spark 連接器
tispark - TiSpark 建置於 TiDB/TiKV 上，用於執行 Apache Spark

開放表格格式

Delta Lake - 儲存層，提供 ACID 交易和可擴充的元資料處理，適用於 Apache Spark 工作負載
Hudi: 大數據的更新、刪除和增量處理
Iceberg - 分析資料集的開放表格格式

基礎架構專案

Kyuubi - Apache Kyuubi 是分散式且多租戶的閘道，可在資料倉儲和資料湖上提供無伺服器 SQL
Apache Spark 的 REST 工作伺服器 - REST 介面，用於管理和提交同一叢集上的 Spark 工作。
Apache Mesos - 叢集管理系統，支援執行 Spark
Alluxio (原名 Tachyon) - 記憶體速度虛擬分散式儲存系統，支援執行 Spark
FiloDB - 整合 Spark 的分析/欄狀資料庫，具備記憶體選項，能夠執行低於一秒的並行查詢
Zeppelin - 多用途筆記本，支援超過 20 種語言後端，包括 Apache Spark
Apache Spark 的 K8S 營運員 - Kubernetes 營運員，用於指定和管理 Kubernetes 上 Apache Spark 應用程式的生命週期。
IBM Spectrum Conductor - 叢集管理軟體，可與 Spark 和現代運算架構整合。
MLflow - 開放原始碼平台，用於管理機器學習生命週期，包括在 Apache Spark 上部署來自不同機器學習函式庫的模型。
Apache DataFu - 一系列公用程式和使用者定義函式，用於處理 Apache Spark 中的大規模資料，並簡化 Scala-Python 的互操作性。

使用 Spark 的應用程式

Apache Mahout - 以前在 Hadoop MapReduce 上，Mahout 已轉換為使用 Spark 作為後端
ADAM - 使用 Apache Spark 載入、轉換和分析基因體資料的架構和 CLI
TransmogrifAI - AutoML 函式庫，用於在 Spark 上建置模組化、可重複使用、強型別的機器學習工作流程，並將手動調整降至最低
自然語言處理 Apache Spark - 一個提供機器學習管線簡單、高效且準確的 NLP 標註的函式庫
Apache Spark 的 Rumble - 一個 JSONiq 引擎，用於查詢不適合資料框的大型、巢狀和異質 JSON 資料集，並使用一種函式語言。

Spark 的效能、監控和除錯工具

Data Mechanics Delight - Delight 是一個免費、託管、跨平台的 Spark UI 替代方案，由一個開源 Spark 代理支援。它具有新的指標和視覺化效果，可簡化 Spark 監控和效能調整。

其他語言繫結

C#/.NET

Mobius: Apache Spark 的 C# 和 F# 語言繫結和擴充套件

Clojure

Geni - 一個 Clojure 資料框函式庫，在 Apache Spark 上執行，專注於最佳化 REPL 體驗。

Julia

Spark.jl

Kotlin

Apache Spark 的 Kotlin

新增專案

若要新增專案，請針對 spark-website 儲存庫開啟一個 Pull Request。將一個項目新增到這個標記檔案，然後執行 jekyll build 以產生 HTML。將兩者都包含在你的 Pull Request 中。請參閱此儲存庫中的 README 以取得更多資訊。

請注意，所有專案和產品名稱都應遵循商標指南。

最新消息

Spark 3.4.3 發布 (2024 年 4 月 18 日)
Spark 3.5.1 發布 (2024 年 2 月 23 日)
Spark 3.3.4 發布 (2023 年 12 月 16 日)
Spark 3.4.2 發布 (2023 年 11 月 30 日)

內建函式庫

第三方專案