上QQ阅读APP看书,第一时间看更新
第2章 常用的数据集
迄今为止,在机器学习和深度学习领域,数据本身对一个算法的好坏依旧起着至关重要的作用—数据的有无、数据量的大小以及数据的质量都会直接影响一个算法的实际性能。在大多数时候,可能算法本身在理论层面是很优秀的,但在处理糟糕的数据时,再优秀的算法性能也要大打折扣。
如今,社会发展已进入大数据时代,这就意味着数据获取会变得更加容易,而这在一定程度上也大力推动了深度学习的发展。例如早期的图像分类任务,在李飞飞团队公布了庞大的ImageNet数据集并举办了相关比赛后,吸引了大量的研究团队,充分利用ImageNet数据集所包含的百万级的数据来构建强大的图像分类器,越来越多的优秀算法应运而生,为后续诸多的下游任务做足了技术储备。而在目标检测领域,正是在MS COCO数据集[32]被公布后,促进了目标检测领域的发展,使得越来越多的检测算法被部署到实际场景中,从而解决实际任务中的问题。诸如此类的例子还有很多,总结起来,就是深度学习的每一条分支的发展都离不开一个庞大的、高质量的、场景复杂的、具有挑战性的数据集。因此,在步入目标检测领域之前,了解该领域常用的数据集是十分必要的。
当然,有时一个数据集可能会服务于多个任务,因此会存在不同形式的数据标签。为了配合本书,我们只介绍数据集中的部分内容。倘若读者对数据集的其他部分也感兴趣,不妨前往数据集的官方网站查看更多的信息。