本笔记主要聚焦于基于深度学习的图像处理内容,既是对计算机视觉知识体系的向前扩展,也是对机器学习基础的深入延展。旨在以通俗易懂的方式普及相关核心概念,为后续深入理解深度学习算法在图像领域的应用打下基础

深度学习的研究现状

当前,深度学习(DL,deep learning)已成为人工智能 (AI,artificial intelligence) 领域的重要分支,并与机器学习 (ML,machine learning) 一起构成了现代AI技术体系的核心。其研究与应用方向主要集中在以下三个领域

  • 计算机视觉(CV,computer vision)
  • 自然语言处理(Natural Language Processing, NLP)
  • 语音识别(Speech Recognition)

在这三大领域中,计算机视觉被认为是深度学习最早实现突破的应用领域之一,尤其在图像识别、图像生成、图像理解等任务上取得了诸多成果。其核心任务可进一步细分为:

  • 图像分类(Classification):判断一张图片属于哪个预定义类别。例如将图片判定为“猫”或“狗”
  • 目标检测(Detection):在图像中识别出多个目标对象,并给出每个目标的类别与位置
  • 图像分割(Segmentation):对图像中的每一个像素进行分类,实现更加精细的目标边界识别

这三项被视为计算机视觉的三大基础任务,也是后续复杂视觉任务(如图像描述、视频理解、三维重建等)的基础

深度学习在图像识别领域研究现状

图像处理是深度学习最早取得重大突破的应用方向之一。早在 1989 年,加拿大多伦多大学的 Yann LeCun 教授(即日后深度学习“三巨头”之一)与其团队首次提出了**卷积神经网络(Convolutional Neural Network, CNN)**的概念。这一模型最初被设计用于手写数字识别,在小规模任务上取得了优异成绩。LeCun 所提出的 LeNet-5 模型 就是当时用于 MNIST 手写数字识别的重要里程碑。

CNN 的设计灵感来源于神经科学,尤其是 Huber 与 Wiesel 对哺乳动物初级视觉皮层(V1 区)的研究成果。早期的 CNN 通常由两层可训练的卷积层、两层固定的池化层以及至少一个全连接层组成,其深度通常超过五层。尽管在特定场景下表现优越,但由于计算资源有限,早期的 CNN 并未在大型图像处理任务中取得突破性进展,也未能引起广泛重视。

直到 2012 年,深度学习的转折点到来。Hinton 教授及其学生 Alex Krizhevsky 设计了AlexNet模型 ,并在 ImageNet 图像识别挑战赛(ILSVRC)中取得了压倒性的胜利,将 Top-5 错误率从 26% 降低到 15%。这一突破不只是模型结构本身的胜利,更得益于以下几项关键技术:

  • ReLU 激活函数的引入:替代传统 Sigmoid/Tanh,提高了训练效率;
  • Dropout 机制:有效抑制过拟合;
  • 数据增强(Data Augmentation):扩大训练数据规模,提升模型泛化能力;
  • GPU 加速:首次大规模使用 GPU(NVIDIA GTX 580)进行神经网络训练,使得深层网络的训练时间大幅缩短。

AlexNet 的成功,标志着深度卷积网络正式登上主流舞台,也引爆了后续一系列网络结构的创新浪潮,如 VGG、GoogLeNet、ResNet 等。

在国内,以百度、阿里、腾讯为代表的互联网企业也迅速将深度学习技术落地于实际应用中,尤其在人脸识别、图像内容审核、视觉搜索等方向率先部署了基于 CNN 的深度学习系统。可以说,图像识别不仅是深度学习的起点之一,更是其最成熟、最广泛落地的应用场景。

图像理解的三大基础任务:分类、检测、分割

在计算机视觉中,图像分类、目标检测、图像分割是最基础、也是最广泛研究和应用的三个核心任务

分类 分类+定位(一个目标) 目标检测(多个目标) 分割

一、图像分类(Classification): 即是将图像结构化为某一类别的信息,用事先确定好的类别(category)或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,

图像分类是最基础的图像理解任务,其目标是:将整张图像归入一个预定义的类别。早期深度学习的诸多突破正是首先在图像分类任务上取得的,ImageNet 数据集和 ILSVRC 竞赛在其中起到了关键作用。

分类模型的输入是图片,输出是一个标签,例如判断这张图像属于“猫”、“狗”还是“风景”。分类不涉及图像中物体的具体位置,仅仅是对整体内容的判断。

例如:“这是一张猫的照片”,但模型并不知道猫在哪里。

二、图像分类+定位(Classification with Localization):

这是分类的增强版,模型不仅给出类别,同时用一个矩形框标记出该物体的位置。但它只能找出单个主要目标的位置,适用于简单场景。

例如:“这是一张猫的照片,猫在这儿”,并画出一个框

三、目标检测(Object Detection)

目标检测任务要求模型从图像中识别出所有感兴趣的物体,并输出它们的类别与精确位置。每一个目标都需要被单独识别并框出,因此其输出是多个 bounding box 和对应的类别

目标检测不仅能告诉你图中有哪些物体,还能告诉你“在哪里”、“有几个”。

例如:“图中有两只猫、一只狗,一只鸭子,它们分别在这里、这里和这里。”

经典目标检测算法包括:RCNN 系列(如 Fast RCNN、Faster RCNN)、YOLO 系列(如 YOLOv3/YOLOv5/YOLOv8)、SSD 等

四、图像分割(Segmentation):图像分割将图像的每一个像素都划分到某个语义类别中,是精度更高的视觉任务

图像分割

分类 目标检测 分割