將 SQL 查詢與 Spark 程式無縫結合。
Spark SQL 讓您可以在 Spark 程式中查詢結構化資料,使用 SQL 或熟悉的 資料框架 API。可在 Java、Scala、Python 和 R 中使用。
以相同的方式連線至任何資料來源。
資料框架和 SQL 提供一種常見的方式來存取各種資料來源,包括 Hive、Avro、Parquet、ORC、JSON 和 JDBC。您甚至可以跨這些來源加入資料。
在現有資料倉儲上執行 SQL 或 HiveQL 查詢。
Spark SQL 支援 HiveQL 語法以及 Hive SerDes 和 UDF,讓您能夠存取現有的 Hive 資料倉儲。
透過 JDBC 或 ODBC 連線。
伺服器模式提供業界標準 JDBC 和 ODBC 連線,適用於商業智慧工具。
Spark SQL 包含成本基礎最佳化器、欄位儲存和程式碼產生,以加快查詢速度。同時,它使用 Spark 引擎擴充至數千個節點和多小時查詢,該引擎提供完整的查詢中斷容錯。無需擔心使用不同的引擎來處理歷史資料。
Spark SQL 是 Apache Spark 的一部分。因此,它會在每次 Spark 發布時進行測試和更新。
如果您對系統有任何疑問,請在 Spark 郵件列表 中詢問。
Spark SQL 開發人員歡迎貢獻。如果您想提供協助,請閱讀 如何貢獻 Spark,並向我們發送程式碼修補程式!