保姆级基于深度学习的图像处理笔记(

内容为“计算机视觉知识体系的向前延伸 及 机器学习知识体系的向后延伸”的概念性普及

深度学习的研究现状

目前

  • 计算机视觉(CV,computer vision)
  • 自然语言处理(Natural Language Process, NLP)
  • 语音识别(Speech Recognition)

并列为

人工智能(AI,artificial intelligence)- 机器学习(ML,machine learning)- 深度学习(DL,deep learning)方向的三大热点方向,是深度学习算法应用最广泛的三个主要研究领域

图像分类、目标检测、图像分割则是计算机视觉领域的三大任务

深度学习在图像识别领域研究现状

对于图像的处理是深度学习算法最早尝试应用的领域。早在1989年,加拿大多伦多大学教授Yann LeCun(杨立昆)就和他的同事提出了卷积神经网络(Convolutional Neural Networks, CNN)它是一种包含卷积层的深度神经网络模型。通常一个卷机神经网络架构包含两个可以通过训练产生的非线性卷积层,两个固定的子采样层和一个全连接层,隐藏层的数量一般至少在5个以上。CNN的架构设计是受到生物学家Hube和Wiesel的动物视觉模型启发而发明的,尤其是模拟动物视觉皮层的V1层和V2层中简单细胞和复杂细胞在视觉系统的功能。起初卷积神经网络在小规模的问题上取得了当时世界最好成果。但是在很长一段时间里一直没有取得重大突破。主要原因是卷积神经网络应用在大尺寸图像上一直不能取得理想结果,比如对于像素数很大的自然图像内容的理解,这使得它没有引起计算机视觉研究领域足够的重视。2012年10月,Hinton教授以及他的学生采用更深的卷神经网络模型(通过CNN网络架构的AlexNet )在著名的ImageNet问题上取得了世界最好结果,使得对于图像识别的领域研究更进一步

Hinton构建深度神经网络取得惊人成果主要是因为对算法的改进,在网络的训练中引入了权重衰减的概念,有效的减小权重幅度,防止网络过拟合。更关键的是计算机计算能力的提升,GPU加速技术的发展,使得在训练过程中可以产生更多的训练数据,使网络能够更好的拟合训练数据。2012年国内互联网巨头百度公司将相关最新技术成功应用到人脸识别和自然图像识别问题,并推出相应的产品。现在的深度学习网络模型已经能够理解和识别一般的自然图像。深度学习模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量时间进行人工特征的提取,使得在线运行效率大大提升

计算机视觉可以解决的问题

如何从图像中解析出可供计算机理解的信息,是计算机视觉 (Computer Vision) 的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。那么,如何理解一张图片呢?根据任务的需要,有图中所示三个主要的层次(图像分析的三个层次):

分类 分类+定位 目标检测 分割

一是分类(Classification): 即是将图像结构化为某一类别的信息,用事先确定好的类别(category)或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet是权威的评测集,每年的ILSVRC催生了大量的优秀深度网络结构,为其他任务提供了基础。在应用领域,人脸、场景的识别等都可以归为分类任务(将整幅图片分成“人”、“动物”、“户外”等类别,CAT OR DOG (并不知道位置),输入图像,输出类别

分类+定位:可以分类+框框确定位置(检测图像中的目标并在其周围画一个矩形,例如一个人或一只羊)

二是检测(Detection):分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息(classification + localization)。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因此检测模型的输出是一个列表,列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。(可以对目标分类,可以对目标定位,同时把每一个物体单独拎出来识别,输入图像,输出每一个物体

三是分割(Segmentation):图像分割:把图像抠出来,像素级识别分割

图像分割

分类 目标检测 分割