本书的组织结构
本书包含四大部分,共13章。以下是本书各章内容的简要介绍。
第1部分是“背景知识”,涉及第1章、第2章的内容。
● 第1章,“目标检测架构浅析”。详略得当地介绍了自深度学习时代以来的目标检测的发展简史,以简略的笔墨向读者铺开这一技术发展的画卷。在这一章中,作者列出了若干经典的目标检测框架,如R-CNN系列和YOLO系列,讲述了当前目标检测领域的两大技术流派:两阶段和单阶段。同时,介绍了当前流行的目标检测架构,包含主干网络、颈部网络和检测头三大部分,这为以后的改进和优化工作提供了较为清晰的路线和准则。目标检测发展得已较为成熟,由于篇幅有限,作者无法将每一部分的所有工作都罗列出来,因此只能挑选其中极具代表性的工作进行介绍。在了解了相关原理后,建议读者顺藤摸瓜地去了解更多的相关工作,丰富知识体系。
● 第2章,“常用的数据集”。介绍了目标检测领域常用的两大数据集:PASCAL VOC数据集和MS COCO数据集,其中,MS COCO数据集是最具挑战性的、当下诸多论文中必不可少的重要数据集之一。了解这些数据集的基本情况,是入门目标检测领域的基本功之一,有助于读者开展后续工程或学术方面的工作。
第2部分是“学习YOLO框架”,涉及第3章~第8章的内容。
● 第3章,“YOLOv1”。详细讲解经典的YOLOv1工作,包括网络结构、检测原理、训练中的标签分配策略、训练模型的策略以及前向推理的细节。通过本章的学习,读者将正式迈过目标检测领域的门槛,对目标检测任务建立基本的认识,掌握基于YOLO框架的检测技术路线,这有助于开展后续的学习和研究工作。
● 第4章,“搭建YOLOv1网络”。在第3章所学习的YOLO相关知识的基础上,通过对YOLOv1的网络结构做适当的改进,着手编写相关的网络结构的代码。本章的代码实现环节将有助于提升读者对目标检测框架的认识,使其对如何基于现有的深度学习框架搭建目标检测网络有一定的基本了解。
● 第5章,“训练YOLOv1网络”。本章进一步编写YOLOv1的项目代码,在第4章的基础上,本章主要编写读取数据、预处理数据、搭建模型、实现标签匹配、实现训练和测试代码以及可视化检测结果等诸多代码实现内容。通过学习本章,读者将对如何搭建一个目标检测框架并实现训练和测试等必要的功能有一个较为清晰的认识。这些认识也将对读者日后开展深入研究、快速掌握其他开源代码的架构起着很大的作用。
● 第6章,“YOLOv2”。介绍了自YOLOv1之后的新一代YOLOv2网络,着重介绍了YOLOv2所采用的各种改进和优化方式,有助于读者了解包括批归一化层、先验框、多尺度训练等在内的关键技术。这些技术都是当前主流的目标检测框架中不可或缺的部分。同时,还对YOLOv2做了一次复现,有助于读者从代码实现的角度进一步加深对YOLOv2的认识,同时巩固搭建目标检测项目的代码能力。
● 第7章,“YOLOv3”。介绍了YOLOv3检测框架的技术原理和细节。自YOLOv3开始,YOLO系列工作的整体面貌就基本确定下来:强大的主干网络和多尺度检测架构。这两点在后续的每一代YOLO检测器中都能清晰展现。同时,也讲解了YOLOv3的代码实现,完成对复现的YOLOv3的训练和测试。
● 第8章,“YOLOv4”。介绍了YOLOv4检测框架的技术原理和细节,着重介绍了相较于YOLOv3的诸多改进。同时,也讲解了复现YOLOv4的相关代码实现,进一步引导读者从实现的角度加深对YOLOv4的认识和理解,帮助读者巩固和强化对一个完整的目标检测项目代码的认知和实现能力。
第3部分是“较新的YOLO框架”,涉及第9章、第10章的内容。
● 第9章,“YOLOX”。介绍了新一代的YOLO框架,讲解了YOLOX对YOLOv3的改进以及新型的动态标签分配,并动手实现了一款较为简单的YOLOX检测器。
● 第10章,“YOLOv7”。介绍了YOLOv7检测框架的技术原理,主要介绍了YOLOv7所提出的高效网络架构的实现细节,并动手实现了一款较为简单的YOLOv7检测器。
第4部分是“其他流行的目标检测框架”,涉及第11章、第12章和第13章的内容。
● 第11章,“DETR”。介绍了掀起Transformer在计算机视觉领域中的研究浪潮的DETR,讲解了DETR的网络结构,并通过讲解相关的开源代码来展现DETR的技术细节。
● 第12章,“YOLOF”。介绍了新型的单级目标检测网络,讲解了YOLOF独特的网络结构特点和所提出的标签匹配,并通过代码实现的方式复现了YOLOF,进一步增强读者的代码能力。
● 第13章,“FCOS”。介绍了掀起无先验框检测架构研究浪潮的FCOS检测器,填补了前文对于无先验框技术框架的空白,加深了读者对无先验框检测架构的理解和认识。FCOS是这一架构的经典之作,也是常用的基线模型,同时,无先验框技术框架也是当下十分受欢迎的框架。