100天搞定机器学习|day38 反向传播算法推导-白红宇

100天搞定机器学习|day38 反向传播算法推导

阅读量：439 次

发布时间：2019-03-06

本文共 1285 字，大约阅读时间需要 4 分钟。

反向传播算法是机器学习中最经典的优化方法之一，而链式法则则是其理论基础。本文将从最简单的网络入手，逐步解析如何理解和应用链式法则。

反向传播的核心：链式法则

在反向传播算法中，我们希望通过调整网络的权重和偏置，使得模型输出更接近真实标签。为此，我们需要计算代价函数对各个参数的梯度变化，即梯度下降的方向。

考虑一个简单的网络，仅包含三个权重和三个偏置。假设最后一个神经元处于第L层，其激活值记为a(L)，目标标签为y。对于单个训练样本，代价函数可以表示为：

[ C_0 = (a(L) - y)^2 ]

我们的目标是计算代价函数对权重和偏置的梯度。这里，梯度的计算涉及链式法则。具体来说，链式法则描述了如何将一个复杂函数的变化分解为一系列简单函数的变化乘积。

详细推导

为了理解链式法则，我们可以从最简单的网络入手。假设网络仅包含一个神经元，则：

[ a(L) = \sum_{i=1}^{L-1} w_i a(i) + b_L ]

其中，( w_i ) 是连接第i层和第L层的权重，( b_L ) 是偏置。

代入代价函数：

[ C_0 = (a(L) - y)^2 ]

对 ( w_1, w_2, ..., w_{L-1} ) 和 ( b_1, b_2, ..., b_L ) 求导，我们需要计算每个参数的梯度变化。

链式法则的应用如下：

[ \Delta w_i = \frac{\partial C_0}{\partial w_i} = (a(L) - y) \cdot \frac{\partial a(L)}{\partial w_i} ]

[ \Delta b_L = \frac{\partial C_0}{\partial b_L} = 2(a(L) - y) ]

对于中间层激活值的导数，我们需要将梯度向上传播：

[ \Delta a(i) = \frac{\partial C_0}{\partial a(i)} = \sum_{j=1}^{L} \frac{\partial a(L)}{\partial a(i)} \cdot \Delta w_j + \frac{\partial a(L)}{\partial b_L} \cdot \Delta b_L ]

通过这种方式，我们可以逐步计算每一层的梯度变化，从而实现反向传播。

扩展到多层网络

在实际应用中，网络通常包含多个层次。对于第L-1层的激活值，我们可以重复上述过程。关键在于计算每一层的梯度，并将梯度通过链式法则传递到上一层。

通过这种方式，我们可以计算出代价函数对所有权重和偏置的梯度，从而实现参数的优化。这是反向传播算法的核心思想。

实际应用中的注意事项

在实际编码中，需要注意以下几点：

初始化：选择合适的初始权重和偏置，通常采用随机初始化。

反向传播路径：确保每一层的梯度都能正确传递给上一层。

消除过拟合：通过正则化方法（如Dropout或权重衰减）防止模型过拟合训练数据。

通过以上步骤，我们可以清晰地理解链式法则在反向传播中的作用，以及如何利用梯度下降优化机器学习模型。

转载地址：http://svfyz.baihongyu.com/

你可能感兴趣的文章