Spark SQL 和資料框架 | Apache Spark

Spark SQL 是 Apache Spark 的模組，可用於處理結構化資料。

整合

將 SQL 查詢與 Spark 程式無縫結合。

Spark SQL 讓您可以在 Spark 程式中查詢結構化資料，使用 SQL 或熟悉的資料框架 API。可在 Java、Scala、Python 和 R 中使用。

results = spark.sql(
"SELECT * FROM people")
names = results.map(lambda p: p.name)

將函式套用至 SQL 查詢結果。

以相同的方式連線至任何資料來源。

資料框架和 SQL 提供一種常見的方式來存取各種資料來源，包括 Hive、Avro、Parquet、ORC、JSON 和 JDBC。您甚至可以跨這些來源加入資料。

spark.read.json("s3n://...")
  .registerTempTable("json")
results = spark.sql(
  """SELECT *
     FROM people
     JOIN json ...""")

查詢和加入不同的資料來源。

在現有資料倉儲上執行 SQL 或 HiveQL 查詢。

Spark SQL 支援 HiveQL 語法以及 Hive SerDes 和 UDF，讓您能夠存取現有的 Hive 資料倉儲。

Spark SQL 可以使用現有的 Hive 中繼資料儲存、SerDes 和 UDF。

透過 JDBC 或 ODBC 連線。

伺服器模式提供業界標準 JDBC 和 ODBC 連線，適用於商業智慧工具。

使用您現有的商業智慧工具查詢大資料。

Spark SQL 包含成本基礎最佳化器、欄位儲存和程式碼產生，以加快查詢速度。同時，它使用 Spark 引擎擴充至數千個節點和多小時查詢，該引擎提供完整的查詢中斷容錯。無需擔心使用不同的引擎來處理歷史資料。

Spark SQL 是 Apache Spark 的一部分。因此，它會在每次 Spark 發布時進行測試和更新。

如果您對系統有任何疑問，請在 Spark 郵件列表中詢問。

Spark SQL 開發人員歡迎貢獻。如果您想提供協助，請閱讀如何貢獻 Spark，並向我們發送程式碼修補程式！

開始使用 Spark SQL