卷积神经网络

定义

卷积神经网络（CNN）是一种专门用于处理图像、语音等网格状数据的深度学习架构。它通过卷积核在输入数据上滑动，自动学习局部特征，并构建层次化的特征表示。

CNN模仿了生物视觉系统的处理机制，能够从低级特征（边缘、纹理）到高级特征（物体部件、整体对象）逐步抽象，是实现图像识别、目标检测等任务的关键技术。

核心架构

典型的CNN由以下层次构成：

输入层

原始图像数据

卷积层

特征提取

激活层

非线性变换

池化层

特征降维

全连接层

分类输出

卷积层 ×3

提取局部特征，使用3×3卷积核

最大池化层

下采样，保持主要特征

卷积层 ×2

提取更高级特征

全局池化层

空间信息汇总

全连接层

输出类别概率

工作原理

卷积操作：使用小的卷积核（滤波器）在输入图像上滑动，计算局部区域的点积，提取局部特征。

输入特征图

1

0

1

0

1

0

1

0

1

×

卷积核

1

0

-1

1

0

-1

1

0

-1

=

输出特征图

3

参数共享：同一卷积核在整个图像上使用，大大减少参数数量
局部连接：每个神经元只与输入层的局部区域连接，符合图像局部相关性
平移不变性：物体在图像中的位置变化不影响识别结果
层次化特征：浅层提取边缘纹理，深层提取语义特征

应用领域

图像分类：AlexNet、VGG、ResNet等在ImageNet竞赛中取得突破
目标检测：YOLO、Faster R-CNN实现实时物体检测
语义分割：U-Net、DeepLab实现像素级分类
人脸识别：FaceNet等实现高精度人脸验证
医学影像：肺部CT、视网膜病变等自动诊断
自动驾驶：车道检测、行人识别、交通标志识别
艺术风格迁移：将名画风格应用到普通照片

视觉化提示词

用于生成CNN概念图的详细提示词：

"一个多层、发光的神经网络结构。最底层是一张猫的像素图像，图像上有一个3×3的卷积核像探照灯一样滑动，提取出边缘特征。上一层是经过激活函数处理的特征图，显示出猫的眼睛和耳朵轮廓。再上一层是经过池化层下采样的特征图，保留了主要特征但尺寸减半。最高层是完全连接的网络，输出'猫'的分类概率。整个网络有发光的连接线，信息像蓝色流光一样从底层流向顶层。背景中有数学公式浮动，展示卷积运算过程。风格：科技感十足，深蓝色调，霓虹光效，未来主义，精确的线条和几何形状。"

定义

核心架构

输入层

卷积层

激活层

池化层

全连接层

卷积层 ×3

最大池化层

卷积层 ×2

全局池化层

全连接层

工作原理

应用领域

视觉化提示词

相关知识概念

图像特征提取

深度学习

反向传播

Transformer