哈工大神经网络与深度学习
本文总结了神经网络与深度学习课程的核心内容,系统梳理了从基础概念到前沿应用的知识体系。重点介绍了神经网络基本原理、BP算法、CNN架构及其发展历程(LeNet到AlexNet),以及Transformer与大模型技术。课程展现了深度学习从理论到实践的完整路径,强调数学基础的重要性,并指出AI技术快速迭代的特点。通过学习,作者建立了对现代AI技术的系统性认知,认识到深度学习在计算机视觉、自然语言处理
神经网络与深度学习第二周学习总结
近年来,人工智能技术高速发展,而“神经网络”与“深度学习”无疑是其中最核心的方向之一。从最早的图像识别,到如今的大模型、自动驾驶、具身智能、AIGC 等热门领域,深度学习已经深刻影响了计算机科学的发展方向。
本文梳理自哈工大《神经网络与深度学习》课程讲义,内容涉及对神经网络的基本原理、卷积神经网络(CNN)、误差反向传播(BP)算法、Transformer 以及现代大模型的发展的系统理解。
一、什么是神经网络与深度学习
神经网络(Neural Network)本质上是一种模拟人脑神经元连接方式的数学模型,通过大量参数学习输入与输出之间的映射关系。
深度学习(Deep Learning)则是在传统神经网络基础上,通过增加网络层数(Depth)形成的更复杂、更强大的学习模型。
课程中提到:
-
神经网络基础部分包括:
-
感知机
-
BP 网络
-
浅层神经网络
-
-
深度学习部分包括:
-
卷积神经网络(CNN)
-
Transformer
-
计算机视觉
-
大模型与具身智能等前沿方向
-
整个课程的知识脉络非常清晰:
基本问题 → 浅层神经网络 → 深度学习原理 → 深度学习应用与前沿发展
这也是目前人工智能领域的主流发展路径。
二、深度学习的发展背景
传统机器学习往往依赖人工设计特征,例如:
-
SIFT
-
HOG
-
边缘检测
-
人工规则
但这种方法存在明显缺陷:
-
特征提取依赖经验
-
泛化能力差
-
难以处理复杂任务
于是,深度学习开始逐渐替代传统方法。
课程中指出,全连接网络存在很多问题:
-
参数量过大
-
运算速度慢
-
难收敛
-
容易过拟合
例如:
输入一张 1000×1000 图像,如果隐含层有 100 万节点,那么参数量会达到:
这种规模几乎无法训练。
因此,人们提出:
-
局部连接
-
参数共享
-
分层特征提取
这也就是卷积神经网络(CNN)的核心思想。
三、神经网络基础
1. 神经元结构
神经网络的基本单元是“神经元”。
一个神经元通常包括:
-
输入
-
权重
-
加权求和
-
激活函数
-
输出
数学表达为:
随后经过激活函数:
其中:
-
:权重
-
:输入
-
:偏置
-
:激活函数
2. 激活函数
课程中提到了早期常用的:
-
Sigmoid
-
tanh
后期 CNN 中广泛采用:
-
ReLU
AlexNet 的重要改进之一就是:
-
使用 ReLU 替代 Sigmoid
原因在于:
Sigmoid 缺点
-
梯度消失
-
训练慢
-
深层网络难优化
ReLU 优点
-
计算简单
-
收敛快
-
缓解梯度消失
ReLU 表达式:
四、BP(误差反向传播)算法学习总结
BP 算法是神经网络训练的核心。
它的本质是:
利用链式法则不断计算梯度,并更新权重。
1. 前向传播
前向传播过程:
输入 → 隐含层 → 输出层
课程中给出的表达式:
激活输出:
2. 损失函数
课程中采用平方误差:
其中:
3. 梯度下降
参数更新:
其中:
-
:学习率
4. BP 的核心思想
误差从输出层逐层向前传播:
输出层:
隐含层:
这一部分是整个神经网络训练最关键的内容。
以前我一直觉得 BP 非常抽象,但在推导过程中逐步理解了:
-
为什么要求偏导
-
为什么能更新参数
-
为什么链式法则如此重要
这也是深度学习数学基础的核心。
五、卷积神经网络(CNN)
CNN 是整个课程中最重要的内容之一。
1. 为什么需要 CNN
普通全连接网络处理图像时参数太多。
CNN 的核心改进:
-
局部连接
-
权值共享
-
池化降维
从而:
-
大幅减少参数
-
提高训练速度
-
提升泛化能力
六、卷积操作学习总结
卷积本质上是:
使用卷积核提取图像局部特征。
课程中重点讲了:
-
卷积核
-
Padding
-
Stride
-
多通道卷积
1. Padding(填充)
作用:
-
保持特征图尺寸
-
避免边缘信息丢失
2. Stride(步长)
步长决定卷积核移动速度。
步长越大:
-
输出尺寸越小
-
计算量越少
3. 多通道卷积
RGB 图像:
-
R 通道
-
G 通道
-
B 通道
CNN 会对多个通道同时卷积。
七、池化(Pooling)
池化用于:
-
降低维度
-
提取主要特征
-
减少过拟合
课程中提到:
-
最大池化(Max Pooling)
-
平均池化(Average Pooling)
现代网络中:
-
最大池化更常见
八、LeNet 网络学习总结
LeNet-5 是经典 CNN 网络。
整体结构:
Input → Conv → Pool → Conv → Pool → FC → FC → Output
LeNet 的特点:
-
网络较浅
-
参数量小
-
使用 Sigmoid/tanh
-
使用平均池化
虽然今天看来比较简单,但它奠定了现代 CNN 的基础。
九、AlexNet 的重要意义
AlexNet 是深度学习历史上的里程碑。
它在 ImageNet 比赛中取得巨大成功。
课程中提到 AlexNet 的改进:
-
使用 ReLU
-
使用最大池化
-
网络更深
-
参数规模达到约 6000 万
同时还采用了:
-
数据增强
-
随机裁剪
-
图像翻转
-
光照变化等方法
AlexNet 的成功标志着:
深度学习正式进入爆发时代。
十、Transformer 与大模型
课程后半部分开始介绍 Transformer 与大模型。
目前主流 AI 系统:
-
GPT
-
Gemini
-
Claude
-
Qwen
-
DeepSeek
-
Llama
基本都基于 Transformer 架构。
Transformer 的核心思想:
-
Self-Attention(自注意力)
-
并行计算
-
长距离依赖建模
相比 RNN:
-
训练更快
-
更适合大规模数据
-
更适合大模型
如今的大语言模型(LLM)已经进入:
-
千亿参数
-
万亿参数
-
MoE(混合专家)
时代。
十一、深度学习框架学习总结
课程中介绍了多个深度学习平台:
-
TensorFlow
-
PyTorch
-
JAX
-
MindSpore
-
PaddlePaddle 等
其中目前最主流的是:
PyTorch
课程对 PyTorch 的介绍非常详细。
PyTorch 特点:
-
动态计算图
-
Python 风格友好
-
易调试
-
学术界使用广泛
Tensor(张量)
PyTorch 中最核心的数据结构:
Tensor。
课程中提到:
-
一维:向量
-
二维:矩阵
-
多维:张量
简单示例:
import torch
x = torch.tensor([1.0,2.0,3.0])
y = torch.tensor([3.0,4.0,5.0])
output = x + y
print(output)
输出:
tensor([4.,6.,8.])
通过这一部分学习,我第一次真正理解了:
-
Tensor
-
计算图
-
自动求导
这些深度学习底层机制。
十二、深度学习的实际应用
课程中列举了大量应用场景。
1. 计算机视觉
包括:
-
图像分类
-
目标检测
-
语义分割
-
姿态估计
2. 自然语言处理
包括:
-
机器翻译
-
聊天机器人
-
大语言模型
3. 航空航天领域
课程特别提到:
-
图像处理
-
位姿估计
-
机械臂控制
-
深度强化学习
-
运动规划
这与我的专业方向也有很强关联。
例如:
-
在轨服务航天器
-
空间机械臂
-
自主导航
-
姿态控制
都已经开始结合深度学习技术。
4. 具身智能
课程中还介绍了:
-
人形机器人
-
环境感知
-
深度强化学习控制
这也是未来人工智能的重要方向。
十三、个人学习体会
通过这门课程,我最大的感受有几点:
1. 数学基础真的非常重要
深度学习本质上仍然是:
-
线性代数
-
概率论
-
微积分
-
优化理论
尤其 BP 推导过程中:
链式法则几乎贯穿始终。
2. 理论与代码必须结合
仅看公式很难真正理解。
只有:
-
自己写代码
-
自己调参数
-
自己训练模型
才能真正掌握神经网络。
3. 深度学习更新极快
课程中已经涉及:
-
Transformer
-
大模型
-
MoE
-
具身智能
AI 发展速度远超传统计算机方向。
因此必须持续学习。
十四、未来学习方向
后续我希望继续深入学习:
基础方向
-
CNN
-
Transformer
-
Attention
-
优化算法
工程方向
-
PyTorch
-
CUDA
-
模型部署
前沿方向
-
大语言模型(LLM)
-
多模态
-
强化学习
-
具身智能
-
AI+航天
十五、总结
通过本次《神经网络与深度学习》的学习,我对人工智能领域有了系统性的认识。
从:
-
感知机
-
BP算法
-
CNN
-
LeNet
-
AlexNet
到:
-
Transformer
-
大模型
-
具身智能
我逐渐理解了现代 AI 技术的发展脉络。
深度学习不仅仅是一门课程,更是一场正在改变世界的技术革命。
未来,希望自己能够继续深入研究神经网络与人工智能相关技术,并将其应用到航天自主导航、视觉感知与智能控制等方向中。
更多推荐


所有评论(0)