🧠
卡片 12

卷积神经网络

深度学习的核心架构,计算机视觉的革命性技术

深度学习 | 计算机视觉

定义

卷积神经网络(CNN)是一种专门用于处理图像、语音等网格状数据的深度学习架构。它通过卷积核在输入数据上滑动,自动学习局部特征,并构建层次化的特征表示。

CNN模仿了生物视觉系统的处理机制,能够从低级特征(边缘、纹理)到高级特征(物体部件、整体对象)逐步抽象,是实现图像识别、目标检测等任务的关键技术。

核心架构

典型的CNN由以下层次构成:

输入层

原始图像数据

卷积层

特征提取

激活层

非线性变换

池化层

特征降维

全连接层

分类输出

卷积层 ×3

提取局部特征,使用3×3卷积核

最大池化层

下采样,保持主要特征

卷积层 ×2

提取更高级特征

全局池化层

空间信息汇总

全连接层

输出类别概率

工作原理

卷积操作:使用小的卷积核(滤波器)在输入图像上滑动,计算局部区域的点积,提取局部特征。

输入特征图

1
0
1
0
1
0
1
0
1
×

卷积核

1
0
-1
1
0
-1
1
0
-1
=

输出特征图

3
  • 参数共享:同一卷积核在整个图像上使用,大大减少参数数量
  • 局部连接:每个神经元只与输入层的局部区域连接,符合图像局部相关性
  • 平移不变性:物体在图像中的位置变化不影响识别结果
  • 层次化特征:浅层提取边缘纹理,深层提取语义特征

应用领域

  • 图像分类:AlexNet、VGG、ResNet等在ImageNet竞赛中取得突破
  • 目标检测:YOLO、Faster R-CNN实现实时物体检测
  • 语义分割:U-Net、DeepLab实现像素级分类
  • 人脸识别:FaceNet等实现高精度人脸验证
  • 医学影像:肺部CT、视网膜病变等自动诊断
  • 自动驾驶:车道检测、行人识别、交通标志识别
  • 艺术风格迁移:将名画风格应用到普通照片

视觉化提示词

用于生成CNN概念图的详细提示词:

"一个多层、发光的神经网络结构。最底层是一张猫的像素图像,图像上有一个3×3的卷积核像探照灯一样滑动,提取出边缘特征。上一层是经过激活函数处理的特征图,显示出猫的眼睛和耳朵轮廓。再上一层是经过池化层下采样的特征图,保留了主要特征但尺寸减半。最高层是完全连接的网络,输出'猫'的分类概率。整个网络有发光的连接线,信息像蓝色流光一样从底层流向顶层。背景中有数学公式浮动,展示卷积运算过程。风格:科技感十足,深蓝色调,霓虹光效,未来主义,精确的线条和几何形状。"