深度學習優化器

優化器#

反向傳播算法的主要思想：它通過計算損失函數對模型參數的梯度，然後使用梯度下降法來更新參數，以使損失函數最小化，模型逐漸逼近最優解。

實現過程包括兩個關鍵步驟：前向傳播和反向傳播。前向傳播計算網絡輸入經過各層的輸出，而反向傳播通過鏈式法則將損失函數對每個參數的梯度傳遞回網絡，以更新參數。這種迭代的過程使得神經網絡能夠逐漸學習到輸入與輸出之間的映射關係，從而提高網絡的預測性能。

反向傳播算法的基本思想是將損失函數在網絡中進行反向傳播，從輸出層向輸入層逐層計算並累積梯度。具體而言，算法從網絡的最後一層開始，計算輸出層的誤差梯度，然後將該梯度傳遞給前一層，依次迭代，直到傳播到輸入層。在每一層，根據鏈式法則，將當前層的梯度乘以該層的權重，然後傳遞給前一層。

反向傳播算法的步驟如下：

\boldsymbol{\theta}_{\boldsymbol{t}}=\boldsymbol{\theta}_{\boldsymbol{t}-\mathbf{1}}-\alpha \nabla_{\boldsymbol{\theta}} \frac{1}{N} \sum_{i=1}^{N} J\left(\boldsymbol{\theta} ; x^{(i)}\right)

$N$ ：所有樣本

\boldsymbol{\theta}_{\boldsymbol{t}}=\boldsymbol{\theta}_{\boldsymbol{t}-\mathbf{1}}-\alpha \nabla_{\boldsymbol{\theta}} \frac{1}{\text{BS}} \sum_{i=1}^{\text{BS}} J\left(\boldsymbol{\theta} ; x^{(i)}\right)

$\text{BS}$ ：小批量

v_t=v_{t-1}+g_t^2\quad \theta_t=\theta_{t-1}-\alpha\frac{g_t}{\sqrt{v_t+\epsilon}}

v_t=\gamma v_{t-1}+(1-\gamma)g_t^2 \quad \theta_t=\theta_{t-1}-\alpha\frac{g_t}{\sqrt{v_t+\epsilon}}

m_t=\beta_1 m_{t-1} + (1-\beta_1)g_t\qquad v_t=\beta_2 v_{t-1}+(1-\beta_2)g_t^2\qquad \theta_t=\theta_{t-1}-\alpha\frac{m_t}{\sqrt{v_t+\epsilon}}

$\epsilon=10^{-9},\beta_1=0.9, \beta_2=0.999$

熱身：

\hat{m}_t=m_t/(1-\beta_1^t)\qquad \hat{v}_t=v_t/(1-\beta_2^t)