史上最簡潔易懂教程 用Excel理解梯度下降
雷鋒網按:本文作者為 Jahnavi Mahanta,前 American Express (美國運通公司)資深機器學習工程師、深度學習線上教育網站 Deeplearningtrack 聯合創始人。
Jahnavi Mahanta:
對演算法的作用建立直覺性的理解——在我剛入門機器學習的時候,這讓我覺得非常困難。不僅僅是因為理解數學理論和符號本身不容易,也因為它很無聊。我到線上教程裡找辦法,但裡面只有公式或高級別的解釋,在大多數情況下並不會深入細節。
就在那時,一名資料科學同事介紹給我一個新辦法——
用 Excel 表格來實現演算法,
該方法讓我拍案叫絕。後來,不論是任何演算法,我會試著小規模地在 Excel 上學習它——相信我,對於提升你對該演算法的理解、完全領會它的數學美感,這個法子簡直是奇跡。
案例
讓我用一個例子向各位解釋。
大多數資料科學演算法是優化問題。而這方面最常使用的演算法是梯度下降。
或許梯度下降聽起來很玄,但讀完這篇文章之後,你對它的感覺大概會改變。
這裡用住宅價格預測問題作為例子。
現在,有了歷史住宅資料,我們需要創建一個模型,給定一個新住宅的面積能預測其價格。
任務:對於一個新房子,給定面積 X,價格 Y 是多少?
讓我們從繪製歷史住宅資料開始。
現在,我們會用一個簡單的線性模型,用一條線來匹配歷史資料,根據面積 X 來預測新住宅的價格 Ypred。
上圖中,紅線給出了不同面積下的預測價格 Ypred。
Ypred = a+bX
藍線是來自歷史資料的實際住宅價格 Yactual。
Yactual 和 Ypred 之間的差距,即黃色虛線,是預測誤差 E。
我們需要發現一條使權重 a,b 獲得最優值的直線,通過降低預測誤差、提高預測精度,實現對歷史資料的最佳匹配。
所以,目標是找到最優 a, b,使 Yactual 和 Ypred 之間的誤差 E 最小化。
誤差的平方和 (SSE) = ½ a (實際價格 – 預測價格)2= ½ a(Y – Ypred)2
(雷鋒網提醒,請注意衡量誤差的方法不止一種,這只是其中一個)
這時便是梯度下降登場的時候。梯度下降是一種優化演算法,能找到降低預測誤差的最優權重 (a,b) 。
理解梯度下降
現在,我們一步步來理解梯度下降演算法:
用隨機值和計算誤差(SSE)初始化權重 a 和 b。
計算梯度,即當權重(a & b)從隨機初始值發生小幅增減時,SSE 的變動。這幫助我們把 a & b 的值,向著最小化 SSE 的方向移動。
用梯度調整權重,達到最優值,使 SSE 最小化。
使用新權重來做預測,計算新 SSE。
重複第二、第三步,直到對權重的調整不再能有效降低誤差。
我在 Excel 上進行了上述每一步,但在查看之前,我們首先要把資料標準化,因為這讓優化過程更快。
第一步
用隨機值的 a、b 初始化直線 Ypred = a + b X,計算預測誤差 SSE。
第二步
計算不同權重的誤差梯度。
∂SSE/∂a = – (Y-YP)
∂SSE/∂b = – (Y-YP)X
這裡, SSE=½ (Y-YP)2 = ½(Y-(a+bX))2
你需要懂一點微積分,但沒有別的要求了。
∂SSE/∂a、∂SSE/∂b 是梯度,它們基於 SSE 給出 a、b 移動的方向。
第三步
用梯度調整權重,達到最小化 SSE 的最優值
我們需要更新 a、b 的隨機值,來讓我們朝著最優 a、b 的方向移動。
更新規則:
a – ∂SSE/∂a
b – ∂SSE/∂b
因此:
新的 a = a – r * ∂SSE/∂a = 0.45-0.01*3.300 = 0.42
新的 b = b – r * ∂SSE/∂b= 0.75-0.01*1.545 = 0.73
這裡,r 是學習率= 0.01, 是權重調整的速率。
第四步
使用新的 a、b 做預測,計算總的 SSE。
你可以看到,在新預測上 總的 SSE 從 0.677 降到了 0.553。這意味著預測精度在提升。
第五步
重複第三、第四步直到對 a、b 的調整無法有效降低誤差。這時,我們已經達到了最優 a、b,以及最高的預測精度。
這便是梯度下降演算法。該優化演算法以及它的變種是許多機器學習演算法的核心,比如深度網路甚至是深度學習。
via
kdnuggets
,雷鋒網編譯。