二進制檔案資料來源

自 Spark 3.0 以後,Spark 支援二進制檔案資料來源,它會讀取二進制檔案,並將每個檔案轉換成單一記錄,其中包含檔案的原始內容和元資料。它會產生一個 DataFrame,其中包含下列欄位,以及可能是分割欄位

若要讀取完整的二進制檔案,您需要將資料來源 格式 指定為 binaryFile。若要載入路徑符合特定 glob 模式的檔案,同時保留分割發現的行為,您可以使用一般資料來源選項 pathGlobFilter。例如,下列程式碼會從輸入目錄讀取所有 PNG 檔案

spark.read.format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data")
spark.read.format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data")
spark.read().format("binaryFile").option("pathGlobFilter", "*.png").load("/path/to/data");
read.df("/path/to/data", source = "binaryFile", pathGlobFilter = "*.png")

二進制檔案資料來源不支援將 DataFrame 寫回原始檔案。