淺談機器學習中的規則化范數

jopen 10年前發布 | 23K 次閱讀數據挖掘機器學習

一、監督學習簡介

監督機器學習問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規則化參數的同時最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓練數據，而規則化參數是防止我們的模型過分擬合我們的訓練數據。多么簡約的哲學啊！因為參數太多，會導致我們的模型復雜度上升，容易過擬合，也就是我們的訓練誤差會很小。但訓練誤差小并不是我們的最終目標，我們的目標是希望模型的測試誤差小，也就是能準確的預測新的樣本。所以，我們需要保證模型“簡單”的基礎上最小化訓練誤差，這樣得到的參數才具有好的泛化性能（也就是測試誤差也小），而模型“簡單”就是通過規則函數來實現的。另外，規則項的使用還可以約束我們的模型的特性。這樣就可以將人對這個模型的先驗知識融入到模型的學習當中，強行地讓學習到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。要知道，有時候人的先驗是非常重要的。前人的經驗會讓你少走很多彎路，這就是為什么我們平時學習最好找個大牛帶帶的原因。一句點撥可以為我們撥開眼前烏云，還我們一片晴空萬里，醍醐灌頂。對機器學習也是一樣，如果被我們人稍微點撥一下，它肯定能更快的學習相應的任務。只是由于人和機器的交流目前還沒有那么直接的方法，目前這個媒介只能由規則項來擔當了。

1.1 規則化

還有幾種角度來看待規則化的。規則化符合奧卡姆剃刀(Occam's razor)原理。這名字好霸氣，razor！不過它的思想很平易近人：在所有可能選擇的模型中，我們應該選擇能夠很好地解釋已知數據并且十分簡單的模型。從貝葉斯估計的角度來看，規則化項對應于模型的先驗概率。民間還有個說法就是，規則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項(regularizer)或懲罰項(penalty term)。

1.2 監督學習的一般形式

一般來說，監督學習可以看做最小化下面的目標函數：

淺談機器學習中的規則化范數

其中，第一項L(y _i ,f(x _i ;w)) 衡量我們的模型（分類或者回歸）對第i個樣本的預測值f(x _i ;w)和真實的標簽y _i 之前的誤差。因為我們的模型是要擬合我們的訓練樣本的嘛，所以我們要求這一項最小，也就是要求我們的模型盡量的擬合我們的訓練數據。但正如上面說言，我們不僅要保證訓練誤差最小，我們更希望我們的模型測試誤差小，所以我們需要加上第二項，也就是對參數w的規則化函數Ω(w)去約束我們的模型盡量的簡單。

1.3 正則化函數的選擇

規則化函數Ω(w)也有很多種選擇，一般是模型復雜度的單調遞增函數，模型越復雜，規則化值就越大。比如，規則化項可以是模型參數向量的范數。然而，不同的選擇對參數w的約束不同，取得的效果也不同，但我們在論文中常見的都聚集在：零范數、一范數、二范數、跡范數、Frobenius范數和核范數等等。這么多范數，到底它們表達啥意思？具有啥能力？什么時候才能用？什么時候需要用呢？不急不急，下面我們挑幾個常見的娓娓道來。

二、L0和L1范數

2.1 L0范數

L0范數是指向量中非0的元素的個數。如果我們用L0范數來規則化一個參數矩陣W的話，就是希望W的大部分元素都是0。這太直觀了，太露骨了吧，換句話說，讓參數W是稀疏的。OK，看到了“稀疏”二字，大家都應該從當下風風火火的“壓縮感知”和“稀疏編碼”中醒悟過來，原來用的漫山遍野的“稀疏”就是通過這玩意來實現的。但你又開始懷疑了，是這樣嗎？看到的papers世界中，稀疏不是都通過L1范數來實現嗎？腦海里是不是到處都是||W|| ₁ 影子呀！幾乎是抬頭不見低頭見。沒錯，這就是這節的題目把L0和L1放在一起的原因，因為他們有著某種不尋常的關系。那我們再來看看L1范數是什么？它為什么可以實現稀疏？為什么大家都用L1范數去實現稀疏，而不是L0范數呢？

2.2 L1范數

L1范數是指向量中各個元素絕對值之和，也有個美稱叫“稀疏規則算子”（Lasso regularization）。現在我們來分析下這個價值一個億的問題：為什么L1范數會使權值稀疏？有人可能會這樣給你回答“它是L0范數的最優凸近似”。實際上，還存在一個更美的回答：任何的規則化算子，如果他在W _i =0的地方不可微，并且可以分解為一個“求和”的形式，那么這個規則化算子就可以實現稀疏。這說是這么說，W的L1范數是絕對值，|w|在w=0處是不可微，但這還是不夠直觀。這里因為我們需要和L2范數進行對比分析。所以關于L1范數的直觀理解，請待會看看第二節。

對了，上面還有一個問題：既然L0可以實現稀疏，為什么不用L0，而要用L1呢？個人理解一是因為L0范數很難優化求解（NP難問題），二是L1范數是L0范數的最優凸近似，而且它比L0范數要容易優化求解。所以大家才把目光和萬千寵愛轉于L1范數。

OK，來個一句話總結：L1范數和L0范數可以實現稀疏，L1因具有比L0更好的優化求解特性而被廣泛應用。

好，到這里，我們大概知道了L1可以實現稀疏，但我們會想呀，為什么要稀疏？讓我們的參數稀疏有什么好處呢？這里扯兩點：

2.3 稀疏的好處

1）特征選擇(Feature Selection)：

大家對稀疏規則化趨之若鶩的一個關鍵原因在于它能實現特征的自動選擇。一般來說，x _i 的大部分元素（也就是特征）都是和最終的輸出y _i 沒有關系或者不提供任何信息的，在最小化目標函數的時候考慮x _i 這些額外的特征，雖然可以獲得更小的訓練誤差，但在預測新的樣本時，這些沒用的信息反而會被考慮，從而干擾了對正確y _i 的預測。稀疏規則化算子的引入就是為了完成特征自動選擇的光榮使命，它會學習地去掉這些沒有信息的特征，也就是把這些特征對應的權重置為0。

2）可解釋性(Interpretability)：

另一個青睞于稀疏的理由是，模型更容易解釋。例如患某種病的概率是y，然后我們收集到的數據x是1000維的，也就是我們需要尋找這1000種因素到底是怎么影響患上這種病的概率的。假設我們這個是個回歸模型：y=w ₁ *x ₁ +w ₂ *x ₂ +…+w ₁₀₀₀ *x ₁₀₀₀ +b（當然了，為了讓y限定在[0,1]的范圍，一般還得加個Logistic函數）。通過學習，如果最后學習到的w*就只有很少的非零元素，例如只有5個非零的w _i ，那么我們就有理由相信，這些對應的特征在患病分析上面提供的信息是巨大的，決策性的。也就是說，患不患這種病只和這5個因素有關，那醫生就好分析多了。但如果1000個w _i 都非0，醫生面對這1000種因素，累覺不愛。

三、L2范數

除了L1范數，還有一種更受寵幸的規則化范數是L2范數: ||W|| ₂ 。它也不遜于L1范數，它有兩個美稱，在回歸里面，有人把有它的回歸叫“嶺回歸”（Ridge Regression），有人也叫它“權值衰減weight decay”。這用的很多吧，因為它的強大功效是改善機器學習里面一個非常重要的問題：過擬合。至于過擬合是什么，上面也解釋了，就是模型訓練時候的誤差很小，但在測試的時候誤差很大，也就是我們的模型復雜到可以擬合到我們的所有訓練樣本了，但在實際預測新的樣本的時候，糟糕的一塌糊涂。通俗的講就是應試能力很強，實際應用能力很差。擅長背誦知識，卻不懂得靈活利用知識。例如下圖所示（來自Ng的course）：

淺談機器學習中的規則化范數

1）學習理論的角度：

從學習理論的角度來說，L2范數可以防止過擬合，提升模型的泛化能力。

2）優化計算的角度：

從優化或者數值計算的角度來說，L2范數有助于處理 condition number不好的情況下矩陣求逆很困難的問題。哎，等等，這condition number是啥？我先google一下哈。

這里我們也故作高雅的來聊聊優化問題。優化有兩大難題，一是：局部最小值，二是：ill-condition病態問題。前者俺就不說了，大家都懂吧，我們要找的是全局最小值，如果局部最小值太多，那我們的優化算法就很容易陷入局部最小而不能自拔，這很明顯不是觀眾愿意看到的劇情。那下面我們來聊聊ill-condition。ill-condition對應的是well-condition。那他們分別代表什么？假設我們有個方程組AX=b，我們需要求解X。如果A或者b稍微的改變，會使得X的解發生很大的改變，那么這個方程組系統就是ill-condition的，反之就是well-condition的。我們具體舉個例子吧：

淺談機器學習中的規則化范數

咱們先看左邊的那個。第一行假設是我們的AX=b，第二行我們稍微改變下b，得到的x和沒改變前的差別很大，看到吧。第三行我們稍微改變下系數矩陣A，可以看到結果的變化也很大。換句話來說，這個系統的解對系數矩陣A或者b太敏感了。又因為一般我們的系數矩陣A和b是從實驗數據里面估計得到的，所以它是存在誤差的，如果我們的系統對這個誤差是可以容忍的就還好，但系統對這個誤差太敏感了，以至于我們的解的誤差更大，那這個解就太不靠譜了。所以這個方程組系統就是ill-conditioned病態的，不正常的，不穩定的，有問題的，哈哈。這清楚了吧。右邊那個就叫well-condition的系統了。

還是再啰嗦一下吧，對于一個ill-condition的系統，我的輸入稍微改變下，輸出就發生很大的改變，這不好啊，這表明我們的系統不能實用啊。你想想看，例如對于一個回歸問題y=f(x)，我們是用訓練樣本x去訓練模型f，使得y盡量輸出我們期待的值，例如0。那假如我們遇到一個樣本x’，這個樣本和訓練樣本x差別很小，面對他，系統本應該輸出和上面的y差不多的值的，例如0.00001，最后卻給我輸出了一個0.9999，這很明顯不對呀。就好像，你很熟悉的一個人臉上長了個青春痘，你就不認識他了，那你大腦就太差勁了，哈哈。所以如果一個系統是ill-conditioned病態的，我們就會對它的結果產生懷疑。那到底要相信它多少呢？我們得找個標準來衡量吧，因為有些系統的病沒那么重，它的結果還是可以相信的，不能一刀切吧。終于回來了，上面的condition number就是拿來衡量ill-condition系統的可信度的。condition number衡量的是輸入發生微小變化的時候，輸出會發生多大的變化。也就是系統對微小變化的敏感度。condition number值小的就是well-conditioned的，大的就是ill-conditioned的。

如果方陣A是非奇異的，那么A的conditionnumber定義為：

也就是矩陣A的norm乘以它的逆的norm。所以具體的值是多少，就要看你選擇的norm是什么了。如果方陣A是奇異的，那么A的condition number就是正無窮大了。實際上，每一個可逆方陣都存在一個condition number。但如果要計算它，我們需要先知道這個方陣的norm（范數）和Machine Epsilon（機器的精度）。為什么要范數？范數就相當于衡量一個矩陣的大小，我們知道矩陣是沒有大小的，當上面不是要衡量一個矩陣A或者向量b變化的時候，我們的解x變化的大小嗎？所以肯定得要有一個東西來度量矩陣和向量的大小吧？對了，他就是范數，表示矩陣大小或者向量長度。OK，經過比較簡單的證明，對于AX=b，我們可以得到以下的結論：

淺談機器學習中的規則化范數

也就是我們的解x的相對變化和A或者b的相對變化是有像上面那樣的關系的，其中k(A)的值就相當于倍率，看到了嗎？相當于x變化的界。

對condition number來個一句話總結：conditionnumber是一個矩陣（或者它所描述的線性系統）的穩定性或者敏感度的度量，如果一個矩陣的condition number在1附近，那么它就是well-conditioned的，如果遠大于1，那么它就是ill-conditioned的，如果一個系統是ill-conditioned的，它的輸出結果就不要太相信了。

好了，對這么一個東西，已經說了好多了。對了，我們為什么聊到這個的了？回到第一句話：從優化或者數值計算的角度來說，L2范數有助于處理 condition number不好的情況下矩陣求逆很困難的問題。因為目標函數如果是二次的，對于線性回歸來說，那實際上是有解析解的，求導并令導數等于零即可得到最優解為：

淺談機器學習中的規則化范數（個人理解這是解析解，xw=y，不過用到了廣義逆）

然而，如果當我們的樣本X的數目比每個樣本的維度還要小的時候，矩陣X ^T X將會不是滿秩的，也就是X ^T X會變得不可逆，所以w*就沒辦法直接計算出來了。或者更確切地說，將會有無窮多個解（因為我們方程組的個數小于未知數的個數）。也就是說，我們的數據不足以確定一個解，如果我們從所有可行解里隨機選一個的話，很可能并不是真正好的解，總而言之，我們過擬合了。

但如果加上L2規則項，就變成了下面這種情況，就可以直接求逆了：

淺談機器學習中的規則化范數

這里面，專業點的描述是：要得到這個解，我們通常并不直接求矩陣的逆，而是通過解線性方程組的方式（例如高斯消元法）來計算。考慮沒有規則項的時候，也就是λ=0的情況，如果矩陣X ^T X的 condition number 很大的話，解線性方程組就會在數值上相當不穩定，而這個規則項的引入則可以改善condition number。

另外，如果使用迭代優化的算法，condition number 太大仍然會導致問題：它會拖慢迭代的收斂速度，而規則項從優化的角度來看，實際上是將目標函數變成λ-strongly convex（λ強凸）的了。哎喲喲，這里又出現個λ強凸，啥叫λ強凸呢？

當f滿足：

淺談機器學習中的規則化范數

時，我們稱f為λ-stronglyconvex函數，其中參數λ>0。當λ=0時退回到普通convex 函數的定義。

在直觀的說明強凸之前，我們先看看普通的凸是怎樣的。假設我們讓f在x的地方做一階泰勒近似（一階泰勒展開忘了嗎？f(x)=f(a)+f'(a)(x-a)+o(||x-a||).）：

直觀來講，convex 性質是指函數曲線位于該點處的切線，也就是線性近似之上，而 strongly convex 則進一步要求位于該處的一個二次函數上方，也就是說要求函數不要太“平坦”而是可以保證有一定的“向上彎曲”的趨勢。專業點說，就是convex 可以保證函數在任意一點都處于它的一階泰勒函數之上，而strongly convex可以保證函數在任意一點都存在一個非常漂亮的二次下界quadratic lower bound。當然這是一個很強的假設，但是同時也是非常重要的假設。可能還不好理解，那我們畫個圖來形象的理解下。

淺談機器學習中的規則化范數

大家一看到上面這個圖就全明白了吧。不用我啰嗦了吧。還是啰嗦一下吧。我們取我們的最優解w*的地方。如果我們的函數f(w)，見左圖，也就是紅色那個函數，都會位于藍色虛線的那根二次函數之上，這樣就算w _t 和w*離的比較近的時候，f(w _t )和f(w*)的值差別還是挺大的，也就是會保證在我們的最優解w*附近的時候，還存在較大的梯度值，這樣我們才可以在比較少的迭代次數內達到w*。但對于右圖，紅色的函數f(w)只約束在一個線性的藍色虛線之上，假設是如右圖的很不幸的情況（非常平坦），那在w _t 還離我們的最優點w*很遠的時候，我們的近似梯度(f(w _t )-f(w*))/(w _t -w*)就已經非常小了，在w _t 處的近似梯度?f/?w就更小了，這樣通過梯度下降w _t+1 =w _t -α*(?f/?w)，我們得到的結果就是w的變化非常緩慢，像蝸牛一樣，非常緩慢的向我們的最優點w*爬動，那在有限的迭代時間內，它離我們的最優點還是很遠。

所以僅僅靠convex 性質并不能保證在梯度下降和有限的迭代次數的情況下得到的點w會是一個比較好的全局最小點w*的近似點（插個話，有地方說，實際上讓迭代在接近最優的地方停止，也是一種規則化或者提高泛化性能的方法）。正如上面分析的那樣，如果f(w)在全局最小點w*周圍是非常平坦的情況的話，我們有可能會找到一個很遠的點。但如果我們有“強凸”的話，就能對情況做一些控制，我們就可以得到一個更好的近似解。至于有多好嘛，這里面有一個bound，這個 bound 的好壞也要取決于strongly convex性質中的常數α的大小。看到這里，不知道大家學聰明了沒有。如果要獲得strongly convex怎么做？最簡單的就是往里面加入一項(α/2)*||w|| ² 。

呃，講個strongly convex花了那么多的篇幅。實際上，在梯度下降中，目標函數收斂速率的上界實際上是和矩陣X ^T X的 condition number有關，X ^T X的 condition number 越小，上界就越小，也就是收斂速度會越快。

這一個優化說了那么多的東西。還是來個一句話總結吧：L2范數不但可以防止過擬合，還可以讓我們的優化求解變得穩定和快速。

好了，這里兌現上面的承諾，來直觀的聊聊L1和L2的差別，為什么一個讓絕對值最小，一個讓平方最小，會有那么大的差別呢？我看到的有兩種幾何上直觀的解析：

1）下降速度：

我們知道，L1和L2都是規則化的方式，我們將權值參數以L1或者L2的方式放到代價函數里面去。然后模型就會嘗試去最小化這些權值參數。而這個最小化就像一個下坡的過程，L1和L2的差別就在于這個“坡”不同，如下圖：L1就是按絕對值函數的“坡”下降的，而L2是按二次函數的“坡”下降。所以實際上在0附近，L1的下降速度比L2的下降速度要快。所以會非常快得降到0。不過我覺得這里解釋的不太中肯，當然了也不知道是不是自己理解的問題。

淺談機器學習中的規則化范數

2）模型空間的限制：

實際上，對于L1和L2規則化的代價函數來說，我們可以寫成以下形式：

淺談機器學習中的規則化范數

也就是說，我們將模型空間限制在w的一個L1-ball 中。為了便于可視化，我們考慮兩維的情況，在(w1, w2)平面上可以畫出目標函數的等高線，而約束條件則成為平面上半徑為C的一個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解：

淺談機器學習中的規則化范數

可以看到，L1-ball 與L2-ball 的不同就在于L1在和每個坐標軸相交的地方都有“角”出現，而目標函數的測地線除非位置擺得非常好，大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性，例如圖中的相交點就有w1=0，而更高維的時候（想象一下三維的L1-ball 是什么樣的？）除了角點以外，還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方，又會產生稀疏性。

相比之下，L2-ball 就沒有這樣的性質，因為沒有角，所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。這就從直觀上來解釋了為什么L1-regularization 能產生稀疏性，而L2-regularization 不行的原因了。

因此，一句話總結就是：L1會趨向于產生少量的特征，而其他的特征都是0，而L2會選擇更多的特征，這些特征都會接近于0。Lasso在特征選擇時候非常有用，而Ridge就只是一種規則化而已。

四、核范數

核范數||W|| _* 是指矩陣奇異值的和，英文稱呼叫Nuclear Norm。這個相對于上面火熱的L1和L2來說，可能大家就會陌生點。那它是干嘛用的呢？霸氣登場：約束Low-Rank（低秩）。OK，OK，那我們得知道Low-Rank是啥？用來干啥的？

對上面的線性方程組，第一個方程和第二個方程有不同的解，而第2個方程和第3個方程的解完全相同。從這個意義上說，第3個方程是“多余”的，因為它沒有帶來任何的信息量，把它去掉，所得的方程組與原來的方程組同解。為了從方程組中去掉多余的方程，自然就導出了“矩陣的秩”這一概念。

還記得我們怎么手工求矩陣的秩嗎？為了求矩陣A的秩，我們是通過矩陣初等變換把A化為階梯型矩陣，若該階梯型矩陣有r個非零行，那A的秩rank(A)就等于r。從物理意義上講，矩陣的秩度量的就是矩陣的行列之間的相關性。如果矩陣的各行或列是線性無關的，矩陣就是滿秩的，也就是秩等于行數。回到上面線性方程組來說吧，因為線性方程組可以用矩陣描述嘛。秩就表示了有多少個有用的方程了。上面的方程組有3個方程，實際上只有2個是有用的，一個是多余的，所以對應的矩陣的秩就是2了。

OK。既然秩可以度量相關性，而矩陣的相關性實際上有帶有了矩陣的結構信息。如果矩陣之間各行的相關性很強，那么就表示這個矩陣實際可以投影到更低維的線性子空間，也就是用幾個向量就可以完全表達了，它就是低秩的。所以我們總結的一點就是：如果矩陣表達的是結構性信息，例如圖像、用戶-推薦表等等，那么這個矩陣各行之間存在這一定的相關性，那這個矩陣一般就是低秩的。

如果X是一個m行n列的數值矩陣，rank(X)是X的秩，假如rank (X)遠小于m和n，則我們稱X是低秩矩陣。低秩矩陣每行或每列都可以用其他的行或列線性表出，可見它包含大量的冗余信息。利用這種冗余信息，可以對缺失數據進行恢復，也可以對數據進行特征提取。

好了，低秩有了，那約束低秩只是約束rank(w)呀，和我們這節的核范數有什么關系呢？他們的關系和L0與L1的關系一樣。因為rank()是非凸的，在優化問題里面很難求解，那么就需要尋找它的凸近似來近似它了。對，你沒猜錯，rank(w)的凸近似就是核范數||W|| _* _。

好了，到這里，我也沒什么好說的了，因為我也是稍微翻看了下這個東西，所以也還沒有深入去看它。但我發現了這玩意還有很多很有意思的應用，下面我們舉幾個典型的吧。

1）矩陣填充(Matrix Completion)：

我們首先說說矩陣填充用在哪。一個主流的應用是在推薦系統里面。我們知道，推薦系統有一種方法是通過分析用戶的歷史記錄來給用戶推薦的。例如我們在看一部電影的時候，如果喜歡看，就會給它打個分，例如3顆星。然后系統，例如Netflix等知名網站就會分析這些數據，看看到底每部影片的題材到底是怎樣的？針對每個人，喜歡怎樣的電影，然后會給對應的用戶推薦相似題材的電影。但有一個問題是：我們的網站上面有非常多的用戶，也有非常多的影片，不是所有的用戶都看過說有的電影，不是所有看過某電影的用戶都會給它評分。假設我們用一個“用戶-影片”的矩陣來描述這些記錄，例如下圖，可以看到，會有很多空白的地方。如果這些空白的地方存在，我們是很難對這個矩陣進行分析的，所以在分析之前，一般需要先對其進行補全。也叫矩陣填充。

淺談機器學習中的規則化范數

那到底怎么填呢？如何才能無中生有呢？每個空白的地方的信息是否蘊含在其他已有的信息之上了呢？如果有，怎么提取出來呢？Yeah，這就是低秩生效的地方了。這叫低秩矩陣重構問題，它可以用如下的模型表述：已知數據是一個給定的m*n矩陣A，如果其中一些元素因為某種原因丟失了，我們能否根據其他行和列的元素，將這些元素恢復？當然，如果沒有其他的參考條件，想要確定這些數據很困難。但如果我們已知A的秩rank(A)<<m且rank(A)<<n，那么我們可以通過矩陣各行(列)之間的線性相關將丟失的元素求出。你會問，這種假定我們要恢復的矩陣是低秩的，合理嗎？實際上是十分合理的，比如一個用戶對某電影評分是其他用戶對這部電影評分的線性組合。所以，通過低秩重構就可以預測用戶對其未評價過的視頻的喜好程度。從而對矩陣進行填充。

2）魯棒PCA：

主成分分析，這種方法可以有效的找出數據中最“主要"的元素和結構，去除噪音和冗余，將原有的復雜數據降維，揭示隱藏在復雜數據背后的簡單結構。我們知道，最簡單的主成分分析方法就是PCA了。從線性代數的角度看，PCA的目標就是使用另一組基去重新描述得到的數據空間。希望在這組新的基下，能盡量揭示原有的數據間的關系。這個維度即最重要的“主元"。PCA的目標就是找到這樣的“主元”，最大程度的去除冗余和噪音的干擾。

魯棒主成分分析（Robust PCA）考慮的是這樣一個問題：一般我們的數據矩陣X會包含結構信息，也包含噪聲。那么我們可以將這個矩陣分解為兩個矩陣相加，一個是低秩的（由于內部有一定的結構信息，造成各行或列間是線性相關的），另一個是稀疏的（由于含有噪聲，而噪聲是稀疏的），則魯棒主成分分析可以寫成以下的優化問題：

與經典PCA問題一樣，魯棒PCA本質上也是尋找數據在低維空間上的最佳投影問題。對于低秩數據觀測矩陣X，假如X受到隨機（稀疏）噪聲的影響，則X的低秩性就會破壞，使X變成滿秩的。所以我們就需要將X分解成包含其真實結構的低秩矩陣和稀疏噪聲矩陣之和。找到了低秩矩陣，實際上就找到了數據的本質低維空間。那有了PCA，為什么還有這個Robust PCA呢？Robust在哪？因為PCA假設我們的數據的噪聲是高斯的，對于大的噪聲或者嚴重的離群點，PCA會被它影響，導致無法正常工作。而Robust PCA則不存在這個假設。它只是假設它的噪聲是稀疏的，而不管噪聲的強弱如何。

由于rank和L0范數在優化上存在非凸和非光滑特性，所以我們一般將它轉換成求解以下一個松弛的凸優化問題：

說個應用吧。考慮同一副人臉的多幅圖像，如果將每一副人臉圖像看成是一個行向量，并將這些向量組成一個矩陣的話，那么可以肯定，理論上，這個矩陣應當是低秩的。但是，由于在實際操作中，每幅圖像會受到一定程度的影響，例如遮擋，噪聲，光照變化，平移等。這些干擾因素的作用可以看做是一個噪聲矩陣的作用。所以我們可以把我們的同一個人臉的多個不同情況下的圖片各自拉長一列，然后擺成一個矩陣，對這個矩陣進行低秩和稀疏的分解，就可以得到干凈的人臉圖像（低秩矩陣）和噪聲的矩陣了（稀疏矩陣），例如光照，遮擋等等。至于這個的用途，你懂得。

淺談機器學習中的規則化范數

3）背景建模：

背景建模的最簡單情形是從固定攝相機拍攝的視頻中分離背景和前景。我們將視頻圖像序列的每一幀圖像像素值拉成一個列向量，那么多個幀也就是多個列向量就組成了一個觀測矩陣。由于背景比較穩定，圖像序列幀與幀之間具有極大的相似性，所以僅由背景像素組成的矩陣具有低秩特性；同時由于前景是移動的物體，占據像素比例較低，故前景像素組成的矩陣具有稀疏特性。視頻觀測矩陣就是這兩種特性矩陣的疊加，因此，可以說視頻背景建模實現的過程就是低秩矩陣恢復的過程。

淺談機器學習中的規則化范數

4）變換不變低秩紋理（TILT）：

以上章節所介紹的針對圖像的低秩逼近算法，僅僅考慮圖像樣本之間像素的相似性，卻沒有考慮到圖像作為二維的像素集合，其本身所具有的規律性。事實上，對于未加旋轉的圖像，由于圖像的對稱性與自相似性，我們可以將其看做是一個帶噪聲的低秩矩陣。當圖像由端正發生旋轉時，圖像的對稱性和規律性就會被破壞，也就是說各行像素間的線性相關性被破壞，因此矩陣的秩就會增加。

低秩紋理映射算法(TransformInvariant Low-rank Textures，TILT)是一種用低秩性與噪聲的稀疏性進行低秩紋理恢復的算法。它的思想是通過幾何變換τ把D所代表的圖像區域校正成正則的區域，如具有橫平豎直、對稱等特性，這些特性可以通過低秩性來進行刻畫。

淺談機器學習中的規則化范數

低秩的應用非常多，大家有興趣的可以去找些資料深入了解下。

五、規則化參數的選擇

現在我們回過頭來看看我們的目標函數：

淺談機器學習中的規則化范數

里面除了loss和規則項兩塊外，還有一個參數λ。它也有個霸氣的名字，叫hyper-parameters（超參）。你不要看它勢單力薄的，它非常重要。它的取值很大時候會決定我們的模型的性能，事關模型生死。它主要是平衡loss和規則項這兩項的，λ越大，就表示規則項要比模型訓練誤差更重要，也就是相比于要模型擬合我們的數據，我們更希望我們的模型能滿足我們約束的Ω(w)的特性。反之亦然。舉個極端情況，例如λ=0時，就沒有后面那一項，代價函數的最小化全部取決于第一項，也就是集全力使得輸出和期待輸出差別最小，那什么時候差別最小啊，當然是我們的函數或者曲線可以經過所有的點了，這時候誤差就接近0，也就是過擬合了。它可以復雜的代表或者記憶所有這些樣本，但對于一個新來的樣本泛化能力就不行了。畢竟新的樣本會和訓練樣本有差別的嘛。

那我們真正需要什么呢？我們希望我們的模型既可以擬合我們的數據，又具有我們約束它的特性。只有它們兩者的完美結合，才能讓我們的模型在我們的任務上發揮強大的性能。所以如何討好它，是非常重要。在這點上，大家可能深有體會。還記得你復現了很多論文，然后復現出來的代碼跑出來的準確率沒有論文說的那么高，甚至還差之萬里。這時候，你就會懷疑，到底是論文的問題，還是你實現的問題？實際上，除了這兩個問題，我們還需要深入思考另一個問題：論文提出的模型是否具有hyper-parameters？論文給出了它們的實驗取值了嗎？經驗取值還是經過交叉驗證的取值？這個問題是逃不掉的，因為幾乎任何一個問題或者模型都會具有hyper-parameters，只是有時候它是隱藏著的，你看不到而已，但一旦你發現了，證明你倆有緣，那請試著去修改下它吧，有可能有“奇跡”發生哦。

OK，回到問題本身。我們選擇參數λ的目標是什么？我們希望模型的訓練誤差和泛化能力都很強。這時候，你有可能還反映過來，這不是說我們的泛化性能是我們的參數λ的函數嗎？那我們為什么按優化那一套，選擇能最大化泛化性能的λ呢？Oh，sorry to tell you that，因為泛化性能并不是λ的簡單的函數！它具有很多的局部最大值！而且它的搜索空間很大。所以大家確定參數的時候，一是嘗試很多的經驗值，這和那些在這個領域摸爬打滾的大師是沒得比的。當然了，對于某些模型，大師們也整理了些調參經驗給我們。例如Hinton大哥的那篇A Practical Guide to Training RestrictedBoltzmann Machines等等。還有一種方法是通過分析我們的模型來選擇。怎么做呢？就是在訓練之前，我們大概計算下這時候的loss項的值是多少？Ω(w)的值是多少？然后針對他們的比例來確定我們的λ，這種啟發式的方法會縮小我們的搜索空間。另外一種最常見的方法就是交叉驗證Cross validation了。先把我們的訓練數據庫分成幾份，然后取一部分做訓練集，一部分做測試集，然后選擇不同的λ用這個訓練集來訓練N個模型，然后用這個測試集來測試我們的模型，取N模型里面的測試誤差最小對應的λ來作為我們最終的λ。如果我們的模型一次訓練時間就很長了，那么很明顯在有限的時間內，我們只能測試非常少的λ。例如假設我們的模型需要訓練1天，這在深度學習里面是家常便飯了，然后我們有一個星期，那我們只能測試7個不同的λ。這就讓你遇到最好的λ那是上輩子積下來的福氣了。那有什么方法呢？兩種：一是盡量測試7個比較靠譜的λ，或者說λ的搜索空間我們盡量廣點，所以一般對λ的搜索空間的選擇一般就是2的多少次方了，從-10到10啊什么的。但這種方法還是不大靠譜，最好的方法還是盡量讓我們的模型訓練的時間減少。例如假設我們優化了我們的模型訓練，使得我們的訓練時間減少到2個小時。那么一個星期我們就可以對模型訓練7*24/2=84次，也就是說，我們可以在84個λ里面尋找最好的λ。這讓你遇見最好的λ的概率就大多了吧。這就是為什么我們要選擇優化也就是收斂速度快的算法，為什么要用GPU、多核、集群等來進行模型訓練、為什么具有強大計算機資源的工業界能做很多學術界也做不了的事情（當然了，大數據也是一個原因）的原因了。

努力做個“調參”高手吧！祝愿大家都能“調得一手好參”！

六、參考文獻

http://www.cnblogs.com/TenosDoIt/p/3708996.html?utm_source=tuicool&utm_medium=referral

http://fastml.com/large-scale-l1-feature-selection-with-vowpal-wabbit/

http://www.stat.purdue.edu/~vishy/introml/notes/Optimization.pdf

http://www.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

http://nm.mathforcollege.com/mws/gen/04sle/mws_gen_sle_spe_adequacy.pdf

來自： http://www.cnblogs.com/hxsyl/p/5071434.html

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1451376438573.html

數據挖掘機器學習

淺談機器學習中的規則化范數

一、監督學習簡介

1.1 規則化

1.2 監督學習的一般形式

1.3 正則化函數的選擇

二、L0和L1范數

2.1 L0范數

2.2 L1范數

2.3 稀疏的好處

1）特征選擇(Feature Selection)：

2）可解釋性(Interpretability)：

三、L2范數

1）學習理論的角度：

2）優化計算的角度：

1）下降速度：

2）模型空間的限制：

四、核范數

1）矩陣填充(Matrix Completion)：

2）魯棒PCA：

3）背景建模：

4）變換不變低秩紋理（TILT）：

五、規則化參數的選擇

六、參考文獻

相關經驗

相關資訊

相關文檔

目錄