哈工大神经网络与深度学习

本文总结了神经网络与深度学习课程的核心内容，系统梳理了从基础概念到前沿应用的知识体系。重点介绍了神经网络基本原理、BP算法、CNN架构及其发展历程（LeNet到AlexNet），以及Transformer与大模型技术。课程展现了深度学习从理论到实践的完整路径，强调数学基础的重要性，并指出AI技术快速迭代的特点。通过学习，作者建立了对现代AI技术的系统性认知，认识到深度学习在计算机视觉、自然语言处理

m0_74001366

129人浏览 · 2026-05-17 21:00:45

m0_74001366 · 2026-05-17 21:00:45 发布

神经网络与深度学习第二周学习总结

近年来，人工智能技术高速发展，而“神经网络”与“深度学习”无疑是其中最核心的方向之一。从最早的图像识别，到如今的大模型、自动驾驶、具身智能、AIGC 等热门领域，深度学习已经深刻影响了计算机科学的发展方向。

本文梳理自哈工大《神经网络与深度学习》课程讲义，内容涉及对神经网络的基本原理、卷积神经网络（CNN）、误差反向传播（BP）算法、Transformer 以及现代大模型的发展的系统理解。

一、什么是神经网络与深度学习

神经网络（Neural Network）本质上是一种模拟人脑神经元连接方式的数学模型，通过大量参数学习输入与输出之间的映射关系。

深度学习（Deep Learning）则是在传统神经网络基础上，通过增加网络层数（Depth）形成的更复杂、更强大的学习模型。

课程中提到：

神经网络基础部分包括：
- 感知机
- BP 网络
- 浅层神经网络
深度学习部分包括：
- 卷积神经网络（CNN）
- Transformer
- 计算机视觉
- 大模型与具身智能等前沿方向

整个课程的知识脉络非常清晰：

基本问题 → 浅层神经网络 → 深度学习原理 → 深度学习应用与前沿发展

这也是目前人工智能领域的主流发展路径。

二、深度学习的发展背景

传统机器学习往往依赖人工设计特征，例如：

SIFT
HOG
边缘检测
人工规则

但这种方法存在明显缺陷：

特征提取依赖经验
泛化能力差
难以处理复杂任务

于是，深度学习开始逐渐替代传统方法。

课程中指出，全连接网络存在很多问题：

参数量过大
运算速度慢
难收敛
容易过拟合

例如：

输入一张 1000×1000 图像，如果隐含层有 100 万节点，那么参数量会达到：

$10^6 \times 10^6 = 10^{12}$

这种规模几乎无法训练。

因此，人们提出：

局部连接
参数共享
分层特征提取

这也就是卷积神经网络（CNN）的核心思想。

三、神经网络基础

1. 神经元结构

神经网络的基本单元是“神经元”。

一个神经元通常包括：

输入
权重
加权求和
激活函数
输出

数学表达为：

$z=\sum_{i=1}^{n} w_i x_i+b$

随后经过激活函数：

$a=f(z)$

其中：

$(w_i)$ ：权重
$(x_i)$ ：输入
$(b)$ ：偏置
$(f(\cdot))$ ：激活函数

2. 激活函数

课程中提到了早期常用的：

Sigmoid
tanh

后期 CNN 中广泛采用：

ReLU

AlexNet 的重要改进之一就是：

使用 ReLU 替代 Sigmoid

原因在于：

Sigmoid 缺点

梯度消失
训练慢
深层网络难优化

ReLU 优点

计算简单
收敛快
缓解梯度消失

ReLU 表达式：

$f(x)=\max(0,x)$

四、BP（误差反向传播）算法学习总结

BP 算法是神经网络训练的核心。

它的本质是：

利用链式法则不断计算梯度，并更新权重。

1. 前向传播

前向传播过程：

输入 → 隐含层 → 输出层

课程中给出的表达式：

$z_i^{(l)}=\sum_j w_{ij}^{(l)}a_j^{(l-1)}$

激活输出：

$a_i^{(l)}=\sigma(z_i^{(l)})$

2. 损失函数

课程中采用平方误差：

$J=\frac12\sum_i e_i^2$

其中：

$e_i=y_i-\hat y_i$

3. 梯度下降

参数更新：

$\Delta w=-\alpha \frac{\partial J}{\partial w}$

其中：

$(\alpha)$ ：学习率

4. BP 的核心思想

误差从输出层逐层向前传播：

输出层：

$\delta_i=a_i(1-a_i)e_i$

隐含层：

$\delta_i^{(l)}=\sum_j w_{ji}^{(l+1)}\delta_j^{(l+1)}f'(z_i^{(l)})$

这一部分是整个神经网络训练最关键的内容。

以前我一直觉得 BP 非常抽象，但在推导过程中逐步理解了：

为什么要求偏导
为什么能更新参数
为什么链式法则如此重要

这也是深度学习数学基础的核心。

五、卷积神经网络（CNN）

CNN 是整个课程中最重要的内容之一。

1. 为什么需要 CNN

普通全连接网络处理图像时参数太多。

CNN 的核心改进：

局部连接
权值共享
池化降维

从而：

大幅减少参数
提高训练速度
提升泛化能力

六、卷积操作学习总结

卷积本质上是：

使用卷积核提取图像局部特征。

课程中重点讲了：

卷积核
Padding
Stride
多通道卷积

1. Padding（填充）

作用：

保持特征图尺寸
避免边缘信息丢失

2. Stride（步长）

步长决定卷积核移动速度。

步长越大：

输出尺寸越小
计算量越少

3. 多通道卷积

RGB 图像：

R 通道
G 通道
B 通道

CNN 会对多个通道同时卷积。

七、池化（Pooling）

池化用于：

降低维度
提取主要特征
减少过拟合

课程中提到：

最大池化（Max Pooling）
平均池化（Average Pooling）

现代网络中：

最大池化更常见

八、LeNet 网络学习总结

LeNet-5 是经典 CNN 网络。

整体结构：

Input → Conv → Pool → Conv → Pool → FC → FC → Output

LeNet 的特点：

网络较浅
参数量小
使用 Sigmoid/tanh
使用平均池化

虽然今天看来比较简单，但它奠定了现代 CNN 的基础。

九、AlexNet 的重要意义

AlexNet 是深度学习历史上的里程碑。

它在 ImageNet 比赛中取得巨大成功。

课程中提到 AlexNet 的改进：

使用 ReLU
使用最大池化
网络更深
参数规模达到约 6000 万

同时还采用了：

数据增强
随机裁剪
图像翻转
光照变化等方法

AlexNet 的成功标志着：

深度学习正式进入爆发时代。

十、Transformer 与大模型

课程后半部分开始介绍 Transformer 与大模型。

目前主流 AI 系统：

GPT
Gemini
Claude
Qwen
DeepSeek
Llama

基本都基于 Transformer 架构。

Transformer 的核心思想：

Self-Attention（自注意力）
并行计算
长距离依赖建模

相比 RNN：

训练更快
更适合大规模数据
更适合大模型

如今的大语言模型（LLM）已经进入：

千亿参数
万亿参数
MoE（混合专家）

时代。

十一、深度学习框架学习总结

课程中介绍了多个深度学习平台：

TensorFlow
PyTorch
JAX
MindSpore
PaddlePaddle 等

其中目前最主流的是：

PyTorch

课程对 PyTorch 的介绍非常详细。

PyTorch 特点：

动态计算图
Python 风格友好
易调试
学术界使用广泛

Tensor（张量）

PyTorch 中最核心的数据结构：

Tensor。

课程中提到：

一维：向量
二维：矩阵
多维：张量

简单示例：

import torch

x = torch.tensor([1.0,2.0,3.0])
y = torch.tensor([3.0,4.0,5.0])

output = x + y

print(output)

输出：

tensor([4.,6.,8.])

通过这一部分学习，我第一次真正理解了：

Tensor
计算图
自动求导

这些深度学习底层机制。

十二、深度学习的实际应用

课程中列举了大量应用场景。

1. 计算机视觉

包括：

图像分类
目标检测
语义分割
姿态估计

2. 自然语言处理

包括：

机器翻译
聊天机器人
大语言模型

3. 航空航天领域

课程特别提到：

图像处理
位姿估计
机械臂控制
深度强化学习
运动规划

这与我的专业方向也有很强关联。

例如：

在轨服务航天器
空间机械臂
自主导航
姿态控制

都已经开始结合深度学习技术。

4. 具身智能

课程中还介绍了：

人形机器人
环境感知
深度强化学习控制

这也是未来人工智能的重要方向。

十三、个人学习体会

通过这门课程，我最大的感受有几点：

1. 数学基础真的非常重要

深度学习本质上仍然是：

线性代数
概率论
微积分
优化理论

尤其 BP 推导过程中：

链式法则几乎贯穿始终。

2. 理论与代码必须结合

仅看公式很难真正理解。

只有：

自己写代码
自己调参数
自己训练模型

才能真正掌握神经网络。

3. 深度学习更新极快

课程中已经涉及：

Transformer
大模型
MoE
具身智能

AI 发展速度远超传统计算机方向。

因此必须持续学习。

十四、未来学习方向

后续我希望继续深入学习：

基础方向

CNN
Transformer
Attention
优化算法

工程方向

PyTorch
CUDA
模型部署

前沿方向

大语言模型（LLM）
多模态
强化学习
具身智能
AI+航天

十五、总结

通过本次《神经网络与深度学习》的学习，我对人工智能领域有了系统性的认识。

从：

感知机
BP算法
CNN
LeNet
AlexNet

到：

Transformer
大模型
具身智能

我逐渐理解了现代 AI 技术的发展脉络。

深度学习不仅仅是一门课程，更是一场正在改变世界的技术革命。

未来，希望自己能够继续深入研究神经网络与人工智能相关技术，并将其应用到航天自主导航、视觉感知与智能控制等方向中。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

具身智能在智能制造中应用

具身智能（Embodied Intelligence, EI）是智能制造从“虚拟认知”走向“物理实践”的里程碑式跨越。传统工业 AI 仅聚焦于屏幕后的数据处理，而具身智能则是将 AI 大脑融入到机器人、机械臂、AGV 等物理实体中，使其拥有像人类一样的“感官、肌肉与条件反射”，在充满未知、非标准化的工厂环境中自主完成复杂作业。2026年被业界公认为具身智能与人形机器人的“大量产与交付元年”。