進階主題
\[ \newcommand{\R}{\mathbb{R}} \newcommand{\E}{\mathbb{E}} \newcommand{\x}{\mathbf{x}} \newcommand{\y}{\mathbf{y}} \newcommand{\wv}{\mathbf{w}} \newcommand{\av}{\mathbf{\alpha}} \newcommand{\bv}{\mathbf{b}} \newcommand{\N}{\mathbb{N}} \newcommand{\id}{\mathbf{I}} \newcommand{\ind}{\mathbf{1}} \newcommand{\0}{\mathbf{0}} \newcommand{\unit}{\mathbf{e}} \newcommand{\one}{\mathbf{1}} \newcommand{\zero}{\mathbf{0}} \]
線性方法的最佳化(開發人員)
有限記憶 BFGS(L-BFGS)
L-BFGS 是一種準牛頓法最佳化演算法,用於解決以下形式的最佳化問題 $\min_{\wv \in\R^d} \; f(\wv)$
。L-BFGS 方法在局部將目標函數近似為二次函數,而不會評估目標函數的二階偏導數來建構海森矩陣。海森矩陣由先前的梯度評估值近似,因此與在牛頓法中明確計算海森矩陣不同,不存在垂直擴充性問題(訓練特徵數)。因此,與其他一階最佳化方法相比,L-BFGS 通常能更快速收斂。
正交限制記憶準牛頓法(OWL-QN)是 L-BFGS 的延伸,可以有效處理 L1 和彈性網路正則化。
L-BFGS 用作 LinearRegression、LogisticRegression、AFTSurvivalRegression 和 MultilayerPerceptronClassifier 的求解器。
MLlib L-BFGS 求解器會呼叫 breeze 中對應的實作。
加權最小平方的正規方程式求解器
MLlib 實作 加權最小平方法 的正規方程式求解器,方法是使用 WeightedLeastSquares。
給定 $n$ 個加權觀測值 $(w_i, a_i, b_i)$
- $w_i$ 為第 $i$ 個觀測值的權重
- $a_i$ 第 i 個觀測的特色向量
- $b_i$ 第 i 個觀測的標籤
每個觀測的特色數量為 $m$。我們使用以下加權最小平方法:\[ \min_{\mathbf{x}}\frac{1}{2} \sum_{i=1}^n \frac{w_i(\mathbf{a}_i^T \mathbf{x} -b_i)^2}{\sum_{k=1}^n w_k} + \frac{\lambda}{\delta}\left[\frac{1}{2}(1 - \alpha)\sum_{j=1}^m(\sigma_j x_j)^2 + \alpha\sum_{j=1}^m |\sigma_j x_j|\right] \]
其中 $\lambda$ 是正則化參數,$\alpha$ 是彈性網路混合參數,$\delta$ 是標籤的母體標準差,而 $\sigma_j$ 是第 j 個特色欄的母體標準差。
此目標函數僅需要掃描資料一次即可收集求解所需的統計資料。對於 $n \times m$ 資料矩陣,這些統計資料僅需要 $O(m^2)$ 的儲存空間,因此當 $m$(特色數量)相對較小時,可以在單一機器上儲存。然後,我們可以使用直接 Cholesky 分解或反覆最佳化程式等區域性方法在單一機器上求解常態方程式。
Spark MLlib 目前支援常態方程式的兩種求解器類型:Cholesky 分解和準牛頓方法(L-BFGS/OWL-QN)。Cholesky 分解依賴於正定共變異數矩陣(亦即資料矩陣的欄必須線性獨立),如果違反此條件,則會失敗。即使共變異數矩陣不是正定的,準牛頓方法仍能提供合理的解,因此常態方程式求解器也可以在這種情況下改用準牛頓方法。目前,此回退功能始終啟用於 LinearRegression
和 GeneralizedLinearRegression
估計器。
WeightedLeastSquares
支援 L1、L2 和彈性網路正則化,並提供啟用或停用正則化和標準化的選項。在未套用 L1 正則化的情況下(亦即 $\alpha = 0$),存在解析解,可以使用 Cholesky 或準牛頓求解器。當 $\alpha > 0$ 時,不存在解析解,我們改用準牛頓求解器反覆找出係數。
為了讓常態方程式方法更有效率,WeightedLeastSquares
要求特色數量不超過 4096。對於較大的問題,請改用 L-BFGS。
反覆加權最小平方法(IRLS)
MLlib 透過 IterativelyReweightedLeastSquares 實作 反覆加權最小平方法 (IRLS)。它可用於找出廣義線性模型 (GLM) 的最大概似估計值,在穩健回歸中找出 M 估計值,以及其他最佳化問題。請參閱 Iteratively Reweighted Least Squares for Maximum Likelihood Estimation, and some Robust and Resistant Alternatives 以取得更多資訊。
它透過以下程序反覆求解特定最佳化問題
- 線性化當前解的目標函數,並更新對應的權重。
- 使用 WeightedLeastSquares 解決加權最小平方 (WLS) 問題。
- 重複上述步驟直到收斂。
由於它涉及在每次反覆運算中使用 WeightedLeastSquares
解決加權最小平方 (WLS) 問題,因此它還要求特徵數不超過 4096。目前 IRLS 被用作 GeneralizedLinearRegression 的預設求解器。