遷移指南：SparkR（Spark 上的 R）

請注意，此遷移指南描述了 SparkR 特有的項目。在將 SparkR 遷移到較高版本時，可以套用許多 SQL 遷移項目。請參閱遷移指南：SQL、資料集和資料框。

從 SparkR 3.1 升級至 3.2

以前，SparkR 在 SparkR 在純 R shell 或 Rscript 中執行且找不到 Spark 分發時，會自動下載並安裝 Spark 分發到使用者的快取目錄，以完成 SparkR 安裝。現在，它會詢問使用者是否要下載並安裝。若要還原先前的行為，請將 SPARKR_ASK_INSTALLATION 環境變數設定為 FALSE。

已移除不建議使用的 parquetFile、saveAsParquetFile、jsonFile、jsonRDD 方法。請改用 read.parquet、write.parquet、read.json。

以前，我們不會檢查 spark.mlp 中最後一層的大小是否有效。例如，如果訓練資料只有兩個標籤，則 layers 參數（例如 c(1, 3)）以前不會造成錯誤，但現在會造成錯誤。

在 SparkR 2.3.0 及更早版本中，substr 方法的 start 參數錯誤地減一並視為從 0 開始。這可能會導致不一致的子字串結果，而且與 R 中 substr 的行為不符。在版本 2.3.1 及更高版本中，此問題已獲得修正，因此 substr 方法的 start 參數現在從 1 開始。例如，substr(lit('abcdef'), 2, 4)) 在 SparkR 2.3.0 中會產生 abc，而在 SparkR 2.3.1 中會產生 bcd。

以前 stringsAsFactors 參數會在 collect 中被忽略，例如在 collect(createDataFrame(iris), stringsAsFactors = TRUE)) 中。此問題已獲得修正。
對於 summary，已新增要計算的統計資料選項。其輸出已從 describe 的輸出變更。
如果 SparkR 套件和 Spark JVM 的版本不符，可能會產生警告。

已將 numPartitions 參數新增到 createDataFrame 和 as.DataFrame。在分割資料時，分割位置計算已變更為與 Scala 中的計算相符。
方法 createExternalTable 已被棄用，由 createTable 取代。兩種方法都可以用來建立外部或管理式表格。也已新增其他目錄方法。
預設情況下，derby.log 現在儲存在 tempdir()。這會在使用 enableHiveSupport 設定為 TRUE 的 SparkSession 執行個體時建立。
spark.lda 沒有正確設定最佳化器。已修正。
已更新多個模型摘要輸出，將 coefficients 設定為 matrix。這包括 spark.logit、spark.kmeans、spark.glm。已為 spark.gaussianMixture 的模型摘要輸出新增對數似然，設定為 loglik。

方法 table 已移除，並由 tableToDF 取代。
類別 DataFrame 已重新命名為 SparkDataFrame，以避免名稱衝突。
Spark 的 SQLContext 和 HiveContext 已被棄用，由 SparkSession 取代。請改用 sparkR.session() 取代 sparkR.init()，以執行 SparkSession 個體化。完成後，目前作用中的 SparkSession 將用於 SparkDataFrame 作業。
參數 sparkExecutorEnv 不受 sparkR.session 支援。若要設定執行器的環境，請設定 Spark 設定屬性，其前綴為「spark.executorEnv.VAR_NAME」，例如「spark.executorEnv.PATH」
這些函數不再需要 sqlContext 參數：createDataFrame、as.DataFrame、read.json、jsonFile、read.parquet、parquetFile、read.text、sql、tables、tableNames、cacheTable、uncacheTable、clearCache、dropTempTable、read.df、loadDF、createExternalTable。
方法 registerTempTable 已被棄用，由 createOrReplaceTempView 取代。
方法 dropTempTable 已棄用，改用 dropTempView。
下列函數不再需要 sc SparkContext 參數：setJobGroup、clearJobGroup、cancelJobGroup