函數
Spark SQL 提供兩個函數功能,以滿足廣泛的使用者需求:內建函數和使用者定義函數 (UDF)。內建函數是 Spark SQL 預先定義的常用常式,而完整的函數清單可以在 內建函數 API 文件中找到。當系統的內建函數不足以執行所需的任務時,UDF 允許使用者定義自己的函數。
內建函數
Spark SQL 有一些類別的常用內建函數,用於聚合、陣列/對應、日期/時間戳記和 JSON 資料。本小節說明這些函數的用法和說明。
純量函數
類似聚合的函數
產生器函數
UDF (使用者定義函數)
使用者定義函數 (UDF) 是 Spark SQL 的一項功能,當系統的內建函數不足以執行所需的任務時,允許使用者定義自己的函數。若要在 Spark SQL 中使用 UDF,使用者必須先定義函數,然後向 Spark 註冊函數,最後呼叫已註冊的函數。使用者定義函數可以作用於單一行或一次作用於多行。Spark SQL 也支援整合現有的 UDF、UDAF 和 UDTF 的 Hive 實作。