此頁面追蹤補充 Apache Spark 並加入其生態系統的外部軟體專案。

  • great-expectations - 隨時了解資料的預期
  • Apache Airflow - 用於以程式方式撰寫、排程和監控工作流程的平台
  • xgboost - 可擴充、可攜式且分散的梯度提升
  • shap - 一種博弈論方法,用於解釋任何機器學習模型的輸出
  • python-deequ - 衡量大型資料集中的資料品質
  • datahub - 現代資料堆疊的元資料平台
  • dbt-spark - 讓 dbt 能與 Apache Spark 搭配使用

連接器

開放表格格式

  • Delta Lake - 儲存層,提供 ACID 交易和可擴充的元資料處理,適用於 Apache Spark 工作負載
  • Hudi: 大數據的更新、刪除和增量處理
  • Iceberg - 分析資料集的開放表格格式

基礎架構專案

  • Kyuubi - Apache Kyuubi 是分散式且多租戶的閘道,可在資料倉儲和資料湖上提供無伺服器 SQL
  • Apache Spark 的 REST 工作伺服器 - REST 介面,用於管理和提交同一叢集上的 Spark 工作。
  • Apache Mesos - 叢集管理系統,支援執行 Spark
  • Alluxio (原名 Tachyon) - 記憶體速度虛擬分散式儲存系統,支援執行 Spark
  • FiloDB - 整合 Spark 的分析/欄狀資料庫,具備記憶體選項,能夠執行低於一秒的並行查詢
  • Zeppelin - 多用途筆記本,支援超過 20 種語言後端,包括 Apache Spark
  • Apache Spark 的 K8S 營運員 - Kubernetes 營運員,用於指定和管理 Kubernetes 上 Apache Spark 應用程式的生命週期。
  • IBM Spectrum Conductor - 叢集管理軟體,可與 Spark 和現代運算架構整合。
  • MLflow - 開放原始碼平台,用於管理機器學習生命週期,包括在 Apache Spark 上部署來自不同機器學習函式庫的模型。
  • Apache DataFu - 一系列公用程式和使用者定義函式,用於處理 Apache Spark 中的大規模資料,並簡化 Scala-Python 的互操作性。

使用 Spark 的應用程式

  • Apache Mahout - 以前在 Hadoop MapReduce 上,Mahout 已轉換為使用 Spark 作為後端
  • ADAM - 使用 Apache Spark 載入、轉換和分析基因體資料的架構和 CLI
  • TransmogrifAI - AutoML 函式庫,用於在 Spark 上建置模組化、可重複使用、強型別的機器學習工作流程,並將手動調整降至最低
  • 自然語言處理 Apache Spark - 一個提供機器學習管線簡單、高效且準確的 NLP 標註的函式庫
  • Apache Spark 的 Rumble - 一個 JSONiq 引擎,用於查詢不適合資料框的大型、巢狀和異質 JSON 資料集,並使用一種函式語言。

Spark 的效能、監控和除錯工具

  • Data Mechanics Delight - Delight 是一個免費、託管、跨平台的 Spark UI 替代方案,由一個開源 Spark 代理支援。它具有新的指標和視覺化效果,可簡化 Spark 監控和效能調整。

其他語言繫結

C#/.NET

  • Mobius: Apache Spark 的 C# 和 F# 語言繫結和擴充套件

Clojure

  • Geni - 一個 Clojure 資料框函式庫,在 Apache Spark 上執行,專注於最佳化 REPL 體驗。

Julia

Kotlin

新增專案

若要新增專案,請針對 spark-website 儲存庫開啟一個 Pull Request。將一個項目新增到 這個標記檔案,然後執行 jekyll build 以產生 HTML。將兩者都包含在你的 Pull Request 中。請參閱此儲存庫中的 README 以取得更多資訊。

請注意,所有專案和產品名稱都應遵循 商標指南

最新消息

檔案