深度学习笔记（一）：深度学习基础

1. 线性回归模型

在深度学习中，最基础的模型之一是线性回归模型。其数学表示如下：

$Y = X W^T + b（W^T是参数矩阵的转置，b是偏置项）$ $X(batch\_size, feature\_dim)$ $W(out\_dim, feature\_dim)$ $Y(batch\_size, out\_dim)$

损失函数用于衡量预测结果与真实结果之间的差距。通常，损失函数为训练数据集中所有样本误差的平均。训练过程中，我们希望通过调整模型参数W和D，使得损失函数最小化。

在模型训练中，常用的优化算法之一是小批量随机梯度下降（SGD）。该算法的核心思想是：

训练完成后，使用训练得到的模型参数：

$\omega_1, \omega_2, b$

进行线性回归预测。这时，模型可以用来估计训练数据集以外的样本。

Softmax回归常用于分类问题，输出的是离散类别的预测。Softmax回归模型的输出层是一个全连接层，其数学表示为：

$Y_i = \frac{e^{z_i}}{\sum_{j} e^{z_j}}（z_i是每个类别的线性计算结果，Y_i是第i类的预测概率）$

交叉熵损失函数用于评估模型在分类问题上的表现，其数学公式为：

$L = - \sum_{i} y_i \log(\hat{y_i})$

最小化交叉熵损失等价于最大化训练数据集所有标签类别的联合预测概率。

多层感知机（MLP）是一种经典的神经网络结构。它由输入层、多个隐藏层和输出层组成。在每一层，神经元之间是全连接的，即每个输入都影响每个输出。尽管增加隐藏层可以增加模型的表达能力，但如果不使用适当的激活函数，增加层数也不会提升模型的非线性表示能力。

全连接层仅执行仿射变换。为了引入非线性变换，通常可以使用激活函数。常见的激活函数包括：

ReLU：
$\text{ReLU}(x) = \max(x, 0)$
它只保留正数部分，对于负数部分返回0。
Sigmoid：
$\sigma(x) = \frac{1}{1 + e^{-x}}$
其值域在 ( [0, 1] ) 之间，适用于概率预测。
Tanh：
$\text{tanh}(x) = \frac{2}{1 + e^{-2x}} - 1$
其值域在 ( [-1, 1] ) 之间，常用于隐藏层。

训练误差和泛化误差的区别在于，训练误差可以通过调整模型参数来减少，但泛化误差无法直接通过训练误差估计。我们希望降低泛化误差，而不仅仅是训练误差。一个常见的现象是：随着模型复杂度增加，训练误差可能变得很低，但泛化误差却可能增加，这就是过拟合的表现。

为了更好地评估模型的性能，我们可以使用K折交叉验证。将数据集划分为K个子集，每次使用K-1个子集训练，剩下的1个子集用于验证。这样可以获得一个更加可靠的模型评估结果。

$L= \lambda \sum_{i} w_i^2（\lambda是正则化系数）$

权重衰减（L2正则化）通过添加一个惩罚项，限制模型的参数，避免模型过于复杂，从而应对过拟合问题。

丢弃法通过以一定概率丢弃神经网络中的隐藏单元来防止过拟合。训练过程中只丢弃部分神经元，保持其输入期望值。

正向传播是指神经网络从输入层到输出层依次计算并存储中间变量（包括输出）。其计算过程包括矩阵乘法、加法以及激活函数的应用。

反向传播算法用于计算神经网络参数的梯度。它依据微积分中的链式法则，沿着从输出层到输入层的顺序计算梯度。梯度会用于更新模型参数，从而使损失函数最小化。