神经网络与深度学习第二周学习总结

近年来,人工智能技术高速发展,而“神经网络”与“深度学习”无疑是其中最核心的方向之一。从最早的图像识别,到如今的大模型、自动驾驶、具身智能、AIGC 等热门领域,深度学习已经深刻影响了计算机科学的发展方向。

本文梳理自哈工大《神经网络与深度学习》课程讲义,内容涉及对神经网络的基本原理、卷积神经网络(CNN)、误差反向传播(BP)算法、Transformer 以及现代大模型的发展的系统理解。


一、什么是神经网络与深度学习

神经网络(Neural Network)本质上是一种模拟人脑神经元连接方式的数学模型,通过大量参数学习输入与输出之间的映射关系。

深度学习(Deep Learning)则是在传统神经网络基础上,通过增加网络层数(Depth)形成的更复杂、更强大的学习模型。

课程中提到:

  • 神经网络基础部分包括:

    • 感知机

    • BP 网络

    • 浅层神经网络

  • 深度学习部分包括:

    • 卷积神经网络(CNN)

    • Transformer

    • 计算机视觉

    • 大模型与具身智能等前沿方向

整个课程的知识脉络非常清晰:

基本问题 → 浅层神经网络 → 深度学习原理 → 深度学习应用与前沿发展

这也是目前人工智能领域的主流发展路径。


二、深度学习的发展背景

传统机器学习往往依赖人工设计特征,例如:

  • SIFT

  • HOG

  • 边缘检测

  • 人工规则

但这种方法存在明显缺陷:

  • 特征提取依赖经验

  • 泛化能力差

  • 难以处理复杂任务

于是,深度学习开始逐渐替代传统方法。

课程中指出,全连接网络存在很多问题:

  • 参数量过大

  • 运算速度慢

  • 难收敛

  • 容易过拟合

例如:

输入一张 1000×1000 图像,如果隐含层有 100 万节点,那么参数量会达到:

10^6 \times 10^6 = 10^{12}

这种规模几乎无法训练。

因此,人们提出:

  • 局部连接

  • 参数共享

  • 分层特征提取

这也就是卷积神经网络(CNN)的核心思想。


三、神经网络基础

1. 神经元结构

神经网络的基本单元是“神经元”。

一个神经元通常包括:

  • 输入

  • 权重

  • 加权求和

  • 激活函数

  • 输出

数学表达为:

z=\sum_{i=1}^{n} w_i x_i+b

随后经过激活函数:

a=f(z)

其中:

  • (w_i):权重

  • (x_i):输入

  • (b):偏置

  • (f(\cdot)):激活函数


2. 激活函数

课程中提到了早期常用的:

  • Sigmoid

  • tanh

后期 CNN 中广泛采用:

  • ReLU

AlexNet 的重要改进之一就是:

  • 使用 ReLU 替代 Sigmoid

原因在于:

Sigmoid 缺点

  • 梯度消失

  • 训练慢

  • 深层网络难优化

ReLU 优点

  • 计算简单

  • 收敛快

  • 缓解梯度消失

ReLU 表达式:

f(x)=\max(0,x)


四、BP(误差反向传播)算法学习总结

BP 算法是神经网络训练的核心。

它的本质是:

利用链式法则不断计算梯度,并更新权重。


1. 前向传播

前向传播过程:

输入 → 隐含层 → 输出层

课程中给出的表达式:

z_i^{(l)}=\sum_j w_{ij}^{(l)}a_j^{(l-1)}

激活输出:

a_i^{(l)}=\sigma(z_i^{(l)})


2. 损失函数

课程中采用平方误差:

J=\frac12\sum_i e_i^2

其中:

e_i=y_i-\hat y_i


3. 梯度下降

参数更新:

\Delta w=-\alpha \frac{\partial J}{\partial w}

其中:

  • (\alpha):学习率


4. BP 的核心思想

误差从输出层逐层向前传播:

输出层:

\delta_i=a_i(1-a_i)e_i

隐含层:

\delta_i^{(l)}=\sum_j w_{ji}^{(l+1)}\delta_j^{(l+1)}f'(z_i^{(l)})

这一部分是整个神经网络训练最关键的内容。

以前我一直觉得 BP 非常抽象,但在推导过程中逐步理解了:

  • 为什么要求偏导

  • 为什么能更新参数

  • 为什么链式法则如此重要

这也是深度学习数学基础的核心。


五、卷积神经网络(CNN)

CNN 是整个课程中最重要的内容之一。


1. 为什么需要 CNN

普通全连接网络处理图像时参数太多。

CNN 的核心改进:

  • 局部连接

  • 权值共享

  • 池化降维

从而:

  • 大幅减少参数

  • 提高训练速度

  • 提升泛化能力


六、卷积操作学习总结

卷积本质上是:

使用卷积核提取图像局部特征。

课程中重点讲了:

  • 卷积核

  • Padding

  • Stride

  • 多通道卷积


1. Padding(填充)

作用:

  • 保持特征图尺寸

  • 避免边缘信息丢失


2. Stride(步长)

步长决定卷积核移动速度。

步长越大:

  • 输出尺寸越小

  • 计算量越少


3. 多通道卷积

RGB 图像:

  • R 通道

  • G 通道

  • B 通道

CNN 会对多个通道同时卷积。


七、池化(Pooling)

池化用于:

  • 降低维度

  • 提取主要特征

  • 减少过拟合

课程中提到:

  • 最大池化(Max Pooling)

  • 平均池化(Average Pooling)

现代网络中:

  • 最大池化更常见


八、LeNet 网络学习总结

LeNet-5 是经典 CNN 网络。

整体结构:

Input → Conv → Pool → Conv → Pool → FC → FC → Output

LeNet 的特点:

  • 网络较浅

  • 参数量小

  • 使用 Sigmoid/tanh

  • 使用平均池化

虽然今天看来比较简单,但它奠定了现代 CNN 的基础。


九、AlexNet 的重要意义

AlexNet 是深度学习历史上的里程碑。

它在 ImageNet 比赛中取得巨大成功。

课程中提到 AlexNet 的改进:

  • 使用 ReLU

  • 使用最大池化

  • 网络更深

  • 参数规模达到约 6000 万

同时还采用了:

  • 数据增强

  • 随机裁剪

  • 图像翻转

  • 光照变化等方法

AlexNet 的成功标志着:

深度学习正式进入爆发时代。


十、Transformer 与大模型

课程后半部分开始介绍 Transformer 与大模型。

目前主流 AI 系统:

  • GPT

  • Gemini

  • Claude

  • Qwen

  • DeepSeek

  • Llama

基本都基于 Transformer 架构。

Transformer 的核心思想:

  • Self-Attention(自注意力)

  • 并行计算

  • 长距离依赖建模

相比 RNN:

  • 训练更快

  • 更适合大规模数据

  • 更适合大模型

如今的大语言模型(LLM)已经进入:

  • 千亿参数

  • 万亿参数

  • MoE(混合专家)

时代。


十一、深度学习框架学习总结

课程中介绍了多个深度学习平台:

  • TensorFlow

  • PyTorch

  • JAX

  • MindSpore

  • PaddlePaddle 等

其中目前最主流的是:

PyTorch

课程对 PyTorch 的介绍非常详细。

PyTorch 特点:

  • 动态计算图

  • Python 风格友好

  • 易调试

  • 学术界使用广泛


Tensor(张量)

PyTorch 中最核心的数据结构:

Tensor。

课程中提到:

  • 一维:向量

  • 二维:矩阵

  • 多维:张量

简单示例:

import torch

x = torch.tensor([1.0,2.0,3.0])
y = torch.tensor([3.0,4.0,5.0])

output = x + y

print(output)

输出:

tensor([4.,6.,8.])

通过这一部分学习,我第一次真正理解了:

  • Tensor

  • 计算图

  • 自动求导

这些深度学习底层机制。


十二、深度学习的实际应用

课程中列举了大量应用场景。


1. 计算机视觉

包括:

  • 图像分类

  • 目标检测

  • 语义分割

  • 姿态估计


2. 自然语言处理

包括:

  • 机器翻译

  • 聊天机器人

  • 大语言模型


3. 航空航天领域

课程特别提到:

  • 图像处理

  • 位姿估计

  • 机械臂控制

  • 深度强化学习

  • 运动规划

这与我的专业方向也有很强关联。

例如:

  • 在轨服务航天器

  • 空间机械臂

  • 自主导航

  • 姿态控制

都已经开始结合深度学习技术。


4. 具身智能

课程中还介绍了:

  • 人形机器人

  • 环境感知

  • 深度强化学习控制

这也是未来人工智能的重要方向。


十三、个人学习体会

通过这门课程,我最大的感受有几点:


1. 数学基础真的非常重要

深度学习本质上仍然是:

  • 线性代数

  • 概率论

  • 微积分

  • 优化理论

尤其 BP 推导过程中:

链式法则几乎贯穿始终。


2. 理论与代码必须结合

仅看公式很难真正理解。

只有:

  • 自己写代码

  • 自己调参数

  • 自己训练模型

才能真正掌握神经网络。


3. 深度学习更新极快

课程中已经涉及:

  • Transformer

  • 大模型

  • MoE

  • 具身智能

AI 发展速度远超传统计算机方向。

因此必须持续学习。


十四、未来学习方向

后续我希望继续深入学习:

基础方向

  • CNN

  • Transformer

  • Attention

  • 优化算法

工程方向

  • PyTorch

  • CUDA

  • 模型部署

前沿方向

  • 大语言模型(LLM)

  • 多模态

  • 强化学习

  • 具身智能

  • AI+航天


十五、总结

通过本次《神经网络与深度学习》的学习,我对人工智能领域有了系统性的认识。

从:

  • 感知机

  • BP算法

  • CNN

  • LeNet

  • AlexNet

到:

  • Transformer

  • 大模型

  • 具身智能

我逐渐理解了现代 AI 技术的发展脉络。

深度学习不仅仅是一门课程,更是一场正在改变世界的技术革命。

未来,希望自己能够继续深入研究神经网络与人工智能相关技术,并将其应用到航天自主导航、视觉感知与智能控制等方向中。

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐