梯度下降法神经网络_简单描述梯度下降算法

编程小6 (4) 2024-05-22 20:23

Hi，大家好，我是编程小6，很荣幸遇见你，我把这些年在开发过程中遇到的问题或想法写出来，今天说一说梯度下降法神经网络_简单描述梯度下降算法,希望能够帮助你!!!。

0. 前言

梯度下降法是神经网络的一个优化算法，在回调权值的过程中有重要的作用，下面先回顾一下神经网络指明一下梯度下降在何时用上。

1. 回顾神经网络

先来回归一下神经网络的学习过程，如下图：

上图是一个模型，其中w是参数，也是我们说的权重，x是输入的数据。w和x运算之后得到的h是输出结果。假设期望结果(实际值)是y，损失是loss，则：
$h$ = $w x$
$loss = (h-y)^2 = (wx-y)^2$

求解目标就是使得损失loss最小

从上图中可以看到，损失在 $w_t$ 时最小，即在 $w_t$ 时导数为0。在数学上，我们可以通过公式定理直接求得某个函数的导数，再直接求得最小值，但在计算机中却需要经过一定的过程。

2. 基本原理

用下图来讲解一下导数的几何意义

若对 $x_0$ 这点求导，即 $f(x_0)'$ ，此处导数的几何意义就是这一点在函数图像上的切线，也叫斜率、梯度。

下面，回到前面loss-w的图像：
模型开始，会随机取一个 $w$ 的值，此处假定为 $w_1$ ：

这时的 $w_1$ 对应的损失比较大，所以先对其进行求导，现在希望得到下一时刻的 $w_t$ 值，如果损失要变小，就要在 $w_1$ 左侧。此时，梯度下降的思想就出来的，先看下面的式子：

$W_t = W_1 + (-\alpha*dw)$

在 $w_1$ 处，求导( $d w$ )后，要继续减小损失， $\alpha$ 是移动的一个步长，移动之后，此处是往左侧移动，所以就是 $W_1 + (-\alpha*dw)$ 得到下一个 $w_t$ 的值。经过多次上述过程重复的运算，就可以得到一个最佳的 $w$ 的值。

到这一步，也许你还是没有特别清楚。别着急，下面举一个实际的例子来进行说明，进很好理解了！

3. 举例说明

用 $y = x^2$ 这个式子来进行说明，即求解这个函数的最小值。

通过数学的方法可以知道，它是在 $x = 0$ 的时候取得最小值0.

现在，先把它的函数图像画出来：

前面说了，在计算机中，是通过不断尝试求得最小值，下面模拟一下这个过程。

补充
在数学上有如下定理：

若对任意 $x \in (a, b)$ ，都有 $f^{'} (x) > 0$ ，则 $f (x)$ 在 $[a, b]$ 上单增；
若对任意 $x \in (a, b)$ ，都有 $f^{'} (x) < 0$ ，则 $f (x)$ 在 $[a, b]$ 上单减；

① 首先，假设初始 $x_0 = 2$ ，这一点的导数是 $y'(x_0) = 2x_0 = 4 > 0$ ，导数大于0，是递增的，即 $x\uparrow$ ， $y\uparrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要减小 $x$ 的值；

② $x_1<x_0$ 是显而易见的，假设此时 $x_1 = -1.3$ ，这一点的导数是 $y'(x_1) = 2x_1 = -2.6 < 0$ ，导数小于0，是递减的，即 $x\uparrow$ ， $y\downarrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要增大 $x$ 的值；

② $x_2>x_1$ 是显而易见的，假设此时 $x_2 = 1.2$ ，这一点的导数是 $y'(x_2) = 2x_2 = 2.4 > 0$ ，导数大于0，是递增的，即 $x\uparrow$ ， $y\uparrow$ ；因为我们的目标是求解 $y$ 的最小值，所以下一步要减小 $x$ 的值；

③ $x_3<x_2$ …

需要不断重复上面的这个过程来不断逼近最小值，即迭代。

再次简化一下这个过程：

① $x_0 = 2$ ， $y'(x_0) = 4 > 0$ ， $x\uparrow$ $y\uparrow$ ；

② $x_1 = x_0 -\Delta_0$
$x_1 = -1.3$ ， $y'(x_1) = -2.6 < 0$ ， $x\uparrow$ $y\downarrow$ ；

③ $x_2 = x_1 +\Delta_1$
$x_2 = 1.2$ ， $y'(x_2) = 2.4 > 0$ ， $x\uparrow$ $y\uparrow$ ；

④ …

现在，对于整个过程理清楚了，但是还是有很多问题：

在上面的过程中，递增就减小 $x$ 的取值，递减就增大 $x$ 的取值，对于增大和减小的那些 $\Delta$ 有没有通用的取值？
对于上面的 $+$ 和 $-$ 能否统一符号？

即能否用一个通式来表示上面这个过程？

通过观察上面的式子，可以看到，是 $+$ 还是 $-$ ，取决于求导之后是大于0还是小于0；所以可以直接让 $\Delta>0$ ，只要前面是负号，再根据其求导的正负就能确定最终是 $+$ 还是 $-$

也就是可以写成下面的式子：

$x_{k+1} = x_k - \Delta f'(x_k)$

$\Delta$ 有时候也用 $\alpha$ 表示，这是步长，也称作学习率，一般大于0；也就是说 $\Delta$ 控制我们每次调整的大小， $f'(x_k)$ 控制方向。

在求导为正的时候，就是 $x_k$ 减去某个值，求导为负的时候，就是 $x_k$ 加上某个值。

这就是对神经网络中梯度下降这个优化算法的整个说明了，下一篇博客打算用代码来模拟一下这个过程。

今天的分享到此就结束了，感谢您的阅读，如果确实帮到您，您可以动动手指转发给其他人。

已是最后文章

已是最新文章

发表回复取消回复

请先登录账户再评论哦

梯度下降法神经网络_简单描述梯度下降算法

0. 前言

1. 回顾神经网络

2. 基本原理

3. 举例说明

发表回复取消回复

相关推荐

打开软件说缺少Qt插件怎么解决_vs2008 release调试

文字与格式字符串不符_oracle 日期格式

电脑不能连接打印机是怎么回事_电脑不能连接打印机是怎么回事

jvm垃圾回收机制详解_jvm原理及性能调优

最新文章

打开软件说缺少Qt插件怎么解决_vs2008 release调试

文字与格式字符串不符_oracle 日期格式

电脑不能连接打印机是怎么回事_电脑不能连接打印机是怎么回事

jvm垃圾回收机制详解_jvm原理及性能调优

电力行业cdt,101,104规约_国网电力设备预防性试验规程

php垃圾回收机制的理解和认识_js回收机制怎么回收的

java解析yml_yml文件配置list

opencv分水岭算法_分水岭算法相对于边缘检测的优势

gpu架构与桌面级图形显卡的区别_显卡和GPU的关系

windows创建定时任务命令_定时器使用方法

梯度下降法 神经网络_简单描述梯度下降算法

0. 前言

1. 回顾神经网络

2. 基本原理

3. 举例说明

发表回复 取消回复

相关推荐

打开软件说缺少Qt插件怎么解决_vs2008 release调试

文字与格式字符串不符_oracle 日期格式

电脑不能连接打印机是怎么回事_电脑不能连接打印机是怎么回事

jvm垃圾回收机制详解_jvm原理及性能调优

最新文章

打开软件说缺少Qt插件怎么解决_vs2008 release调试

文字与格式字符串不符_oracle 日期格式

电脑不能连接打印机是怎么回事_电脑不能连接打印机是怎么回事

jvm垃圾回收机制详解_jvm原理及性能调优

电力行业cdt,101,104规约_国网电力设备预防性试验规程

php垃圾回收机制的理解和认识_js回收机制怎么回收的

java解析yml_yml文件配置list

opencv分水岭算法_分水岭算法相对于边缘检测的优势

gpu架构与桌面级图形显卡的区别_显卡和GPU的关系

windows创建定时任务命令_定时器使用方法

梯度下降法神经网络_简单描述梯度下降算法

发表回复取消回复