3.5.1
概觀
程式設計指南
快速入門
RDD、累加器、廣播變數
SQL、資料框和資料集
結構化串流
Spark 串流 (DStreams)
MLlib (機器學習)
GraphX (圖形處理)
SparkR (Spark 上的 R)
PySpark (Spark 上的 Python)
API 文件
Scala
Java
Python
R
SQL、內建函式
部署
概觀
提交應用程式
Spark 獨立
Mesos
YARN
Kubernetes
更多
設定
監控
調整指南
工作排程
安全性
硬體配置
遷移指南
建置 Spark
參與 Spark
第三方專案
MLlib:主要指南
基本統計
資料來源
管線
特徵萃取、轉換和選取
分類與迴歸
分群
協同過濾
頻繁模式探勘
模型選取和調整
進階主題
MLlib:基於 RDD 的 API 指南
資料類型
基本統計
分類與回歸
線性模型(SVM、邏輯回歸、線性回歸)
朴素貝氏
決策樹
樹狀集合(隨機森林和梯度提升樹)
等值回歸
協同過濾
分群
降維
特徵萃取與轉換
頻繁模式探勘
評估指標
PMML 模型匯出
最佳化(開發人員)
分類與回歸 - 基於 RDD 的 API
spark.mllib
套件支援各種
二元分類
、
多類別分類
和
回歸分析
方法。下表概述了每種類型問題支援的演算法。
問題類型
支援的方法
二元分類
線性 SVM、邏輯回歸、決策樹、隨機森林、梯度提升樹、朴素貝氏
多類別分類
邏輯回歸、決策樹、隨機森林、朴素貝氏
回歸
線性最小平方、Lasso、脊回歸、決策樹、隨機森林、梯度提升樹、等值回歸
有關這些方法的更多詳細資訊,請參閱
此處
線性模型
分類(SVM、邏輯回歸)
線性回歸(最小平方、Lasso、脊回歸)
決策樹
決策樹集合
隨機森林
梯度提升樹
朴素貝氏
等值回歸