適用於大型資料分析的統一引擎

開始使用

什麼是 Apache Spark

Apache Spark 是一個多語言引擎,用於在單節點機器或叢集上執行資料工程、資料科學和機器學習。
簡單。
快速。
可擴充。
統一。
主要功能
Batch/streaming data
批次/串流資料
使用您偏好的語言:Python、SQL、Scala、Java 或 R,統一批次和即時串流中資料的處理。
SQL analytics
SQL 分析
執行快速、分散的 ANSI SQL 查詢,以進行儀表板和臨時報告。執行速度比大多數資料倉庫快。
Data science at scale
大規模資料科學
對 PB 等級的資料執行探索性資料分析 (EDA),而無需訴諸於降採樣
Machine Learning
機器學習
在筆記型電腦上訓練機器學習演算法,並使用相同的程式碼擴充到容錯叢集,其中包含數千台機器。
最廣泛使用的可擴充運算引擎
數千家公司(包括財星 500 強企業的 80%)使用 Apache Spark
超過 2,000 位來自產業和學界的開源專案貢獻者。
生態系統
Apache Spark 與您最喜愛的架構整合,協助將它們擴充到數千台機器。
資料科學和機器學習
SQL 分析和商業智慧
儲存和基礎架構
Spark SQL 引擎:深入探討
Apache Spark 建立於進階分散式 SQL 引擎之上,適用於大規模資料
適應式查詢執行

Spark SQL 會在執行階段調整執行計畫,例如自動設定 reducer 數量和合併演算法。

支援 ANSI SQL

使用您已經熟悉的 SQL。

結構化和非結構化資料

Spark SQL 可用於結構化表格和非結構化資料,例如 JSON 或影像。

TPC-DS 1TB 無統計資料,使用/不使用適應式查詢執行
加速 TPC-DS 查詢速度,最高達 8 倍
加入社群
Spark 擁有蓬勃發展的開源社群,來自全球各地的貢獻者建立功能、文件,並協助其他使用者。