[译] 如何用 Python 从零开始构建你自己的神经网络

原文地址：How to build your own Neural Network from scratch in Python

原文作者：James Loy

译文出自：掘金翻译计划

本文永久链接：github.com/xitu/gold-m…

译者：JackEggie

校对者：lsvih, xionglong58

一个帮助初学者理解深度神经网络内部工作机制的指南

写作动机： 为了使我自己可以更好地理解深度学习，我决定在没有像 TensorFlow 这样的深度学习库的情况下，从零开始构建一个神经网络。我相信，理解神经网络的内部工作原理对任何有追求的数据科学家来说都很重要。

这篇文章包含了我所学到的东西，希望对你们也有用。

什么是神经网络？

大多数介绍神经网络的文章在描述它们时都会与大脑做类比。在不深入研究与大脑类似之处的情况下，我发现将神经网络简单地描述为给定输入映射到期望输出的数学函数更容易理解一些。

神经网络由以下几个部分组成：

一个输入层，x
任意数量的隐含层
一个输出层，ŷ
层与层之间的一组权重和偏差，W 和 b
每个隐含层中所包含的一个可选的激活函数，σ。在本教程中，我们将使用 Sigmoid 激活函数。

下图展示了 2 层神经网络的架构（注：在计算神经网络中的层数时，输入层通常被排除在外）

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第1张

2 层神经网络的架构

在 Python 中创建一个神经网络的类很简单。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(y.shape)

训练神经网络

一个简单的 2 层神经网络的输出 ŷ 如下：

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第2张

你可能注意到了，在上面的等式中，只有权重 W 和偏差 b 这两个变量会对输出 ŷ 产生影响。

当然，合理的权重和偏差会决定预测的准确程度。将针对输入数据的权重和偏差进行微调的过程就是训练神经网络的过程。

训练过程的每次迭代包括以下步骤：

计算预测输出的值 ŷ，即前馈
更新权重和偏差，即反向传播

下面的序列图展示了这个过程。

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第3张

前馈过程

正如我们在上面的序列图中看到的，前馈只是一个简单的计算过程，对于一个基本的 2 层神经网络，它的输出是：

让我们在 Python 代码中添加一个前馈函数来实现这一点。注意，为了简单起见，我们假设偏差为 0。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

    def feedforward(self):
        self.layer1 = sigmoid(np.dot(self.input, self.weights1))
        self.output = sigmoid(np.dot(self.layer1, self.weights2))

但是，我们仍然需要一种方法来评估预测的“精准程度”（即我们的预测有多好）？而损失函数能让我们做到这一点。

损失函数

可用的损失函数有很多，而我们对损失函数的选择应该由问题本身的性质决定。在本教程中，我们将使用简单的平方和误差作为我们的损失函数。

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第5张

这就是说，平方和误差只是每个预测值与实际值之差的总和。我们将差值平方后再计算，以便我们评估误差的绝对值。

训练的目标是找到能使损失函数最小化的一组最优的权值和偏差。

反向传播过程

现在我们已经得出了预测的误差（损失），我们还需要找到一种方法将误差传播回来，并更新我们的权重和偏差。

为了得出调整权重和偏差的合适的量，我们需要计算损失函数对于权重和偏差的导数。

回忆一下微积分的知识，计算函数的导数就是计算函数的斜率。

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第6张

梯度下降算法

如果我们已经算出了导数，我们就可以简单地通过增大/减小导数来更新权重和偏差（参见上图）。这就是所谓的梯度下降。

然而，我们无法直接计算损失函数对于权重和偏差的导数，因为损失函数的等式中不包含权重和偏差。因此，我们需要链式法则来帮助我们进行计算。

[译] 如何用 Python 从零开始构建你自己的神经网络_https://bianchenghao6.com/blog_idea_第7张

为了更新权重使用链式法则求解函数的导数。注意，为了简单起见，我们只展示了假设为 1 层的神经网络的偏导数。

哦！这真难看，但它让我们得到了我们需要的东西 —— 损失函数对于权重的导数（斜率），这样我们就可以相应地调整权重。

现在我们知道要怎么做了，让我们向 Pyhton 代码中添加反向传播函数。

class NeuralNetwork:
    def __init__(self, x, y):
        self.input      = x
        self.weights1   = np.random.rand(self.input.shape[1],4) 
        self.weights2   = np.random.rand(4,1)                 
        self.y          = y
        self.output     = np.zeros(self.y.shape)

    def feedforward(self):
        self.layer1 = sigmoid(np.dot(self.input, self.weights1))
        self.output = sigmoid(np.dot(self.layer1, self.weights2))

    def backprop(self):
        # 应用链式法则求出损失函数对于 weights2 和 weights1 的导数
        d_weights2 = np.dot(self.layer1.T, (2*(self.y - self.output) * sigmoid_derivative(self.output)))
        d_weights1 = np.dot(self.input.T,  (np.dot(2*(self.y - self.output) * sigmoid_derivative(self.output), self.weights2.T) * sigmoid_derivative(self.layer1)))

        # 用损失函数的导数(斜率)更新权重
        self.weights1 += d_weights1
        self.weights2 += d_weights2