最近,百度利用新的人脸检测深度学习算法pyramidbox,在全球权威人脸检测公开评测集wider face的“easy”、“medium”、“hard”三个评测子集中排名第一,业界表现良好 论文简要介绍该算法背后的技术。
1引言
人脸检测是各种人脸APP测试中的基本任务。 viola - jones [1]的独创性研究利用具有类哈尔特征的adaboost算法来训练级联脸部和非人脸部的分类器。 之后,不断有人深入研究[ 2,3,4,5,6,7 ]以改进级联检测器。 然后,[8、9、10]通过对可变形的面部关系进行建模,将可变形部件模型( dpm )导入到面部检测任务中。 这些方法主要基于设计的特点,这些特点表现性差,经过分离的步骤训练。
近年来,卷积神经互联网( cnn )取得了很大的突破,基于cnn的现代目标检测技术在人脸检测方面取得了很大的进展。 例如,多亏了r-CNN(11、12、13、14 )、SSD )、Yolo(16 )、focalloss ) 17 )及其扩展产物强大的深度学习方法和端到端的优化,cnn
现有的基于anchor的检测框架,如wider face[ 18 ]所示,是以检测不受控制的环境的非常规脸部为目的的。 ssh [ 19 ]和s3fd [ 20 ]为了在单一的神经互联网中检测来自不同层的尺度不同的面孔,开发了尺度不变的互联网。 面部r - fcn [ 21 ]利用位置敏感的平均池,对嵌入在得分图中的响应进行重新加权,消除面部各部位不均匀分布的影响。 fan [ 22 ]提出了anchor级的观察机制,通过强调脸部区域的特征来检测被遮挡的脸部。
这些事业为设计anchor和相关互联网检测不同尺度的人脸提供了比较有效的方法,但利用上下文新闻进行人脸检测还没有得到足够的重视,该问题在非常规人脸检测中应发挥重要的意义。 很明显,人脸不会单独出现在现实世界中,肩膀和身体一般也一起出现,特别是在分辨率低、模糊、由于外部遮挡而无法区别人脸纹理的情况下,提供了丰富的上下文相关资源。 与这个问题相比,我们提出了一种新的上下文辅助互联网框架,完全利用上下文信号,具体步骤如下
首先,互联网不仅要学习人的脸部特征,还必须学习头和身体等上下文部分的特征。 为了实现这一点,需要添加标签,并设计与之匹配的anchor。 在本任务中,我们利用半监督处理方案生成脸部相关上下文部分的近似标签,同时发明了一系列名为pyramidanchors的anchor,添加到基于anchor的常规架构中。
其次,高层次语境特征必须与低层次语境特征充分结合。 通常的脸和非常规则的脸的外观可能有很大的不同。 这意味着并非所有的语义特征都有助于识别小脸。 我们将研究featurepyramidnetworks图1:pyramid盒体系结构。 这包括可缩放主层、低级特征金字塔层( lfpn )、对上下文敏感的预测层和pyramidbox损耗层。的性能,将其水平改为低级别的feature pyramid network( lfpn ),结合相互有用的特征。
第三,预计分支互联网应完全利用合作的特点。 为了将对象脸部周围的语境新闻与更广阔更深入的互联网结合起来,我们引入了语境敏感预测模块( cpm )。 另外,为了进一步提高分类互联网的性能,提出了可以预测模块的大输入输出层。
此外,提出了名为“数据-anchor-采样”的培训战略,调整了培训数据集的分布。 为了学习更具代表性的特征,非定型的面孔样本的多样化很重要,可以通过样本间的数据扩展来获得。
为了明确表达,本研究可以归纳为以下五点。
1 .本文提出一种基于anchor的语境支持方法pyramidanchors,从而引入有监控的新闻,学习小、模糊、部分隐藏的人面部的语境特征。
2、我们设计了低级特征金字塔互联网( lfpn ),更好地融合了语境特征和面部特征。 另外,这种做法在一次拍摄中可以很好地解决不同尺度的人的脸部。
3 .我们提出了一种由混合互联网结构和大输入输出层组成的、对根据融合特征学习准确定位和分类的语境敏感的预测模型
4 .我们提出可以感知尺度的数据-anchor-采样战略,改变训练样本的分布,关注小脸。
5 .在通用人脸检测标准fddb和wider face上,我们达到了目前的好水平。
3行星盒
3.1互联网体系结构
基于anchor许多复杂anchor设计的目标检测框架表明,当在不同级别的特征图上执行预测时,可以相对有效地解决可变尺度的面部。 另外,fpn结构表明融合上层的特征和下层的特征会带来很大的特征。 pyramidbox (图1 )的架构采用与s3FD )相同的扩展vgg16主干网架构和anchor尺度设计,可以生成与不同层次的特征图等比的anchor。 低级的fpn被添加到这个骨干架构中,同时采用对上下文敏感的预测模块作为各个pyramid检测层的分支互联网来获得最终的输出。 这个方法的关键是我们设计了新的pyramid anchor方法。 这可以为每个面部在不同的级别上生成一系列锚点。 架构中每个组件的详细信息如下:
可缩放的骨干互联网层。 我们采用s3fd基层和附加卷积层作为骨干互联网层,其中保存从vgg16的conv 1_1层到pool 5层,然后将fc 6层和fc 7层转换为conv fc层,增加越来越多的卷积层加深。
低级特征金字塔层。 为了提高人脸检测器解决不同尺度人脸的能力,高分辨率的低级特征起着重要的作用。 因此,目前很多优秀的研究[ 25,20,22,19 ]都是在同一帧内构建不同的结构来检测可变尺寸的面部。 其中,高级别的特征用于检测尺寸大的脸部,低级的特征用于检测尺寸小的脸部。 为了将高级特征整合为高分辨率的低级特征,fpn[23]提出了自上而下的框架,以利用所有尺度的高级语义特征图。 最新的研究表明,fpn型框架在目标检测和人脸检测上都取得了相当好的性能。
通过自上而下的中间层结构,我们构建了低级别的特征金字塔互联网( lfpn )。 其感受野不是顶级的一半,而是接近输入大小。 另外,各lfpn块的结构与fpn [23]相同,越来越多的新闻参见图2(a )。
[23]
图2(a )具有特色的金字塔互联网。 ) b )对上下文敏感的预测模块。 ( c )支付箱损失。
4实验
表1 )从不同层开始的lfpn的表现。
表2:pyramidanchors的参数。
表3 :对上下文敏感的预测模块。
表4:pyramidbox的wider face验证子集的结果。
论文: pyramid box:a上下文辅助设计器
面部检测研究从多年前就开始了,在不受控制的环境中检测小、模糊和部分隐藏的面部仍然是一个需要处理的课题。 与棘手的人脸检测问题相比,本文提出了一种上下文辅助的单一人脸检测新方法pyramidbox。 考虑到语境的重要性,我们将从以下三个方面改进语境新闻的利用。 首先,我们设计了全新的语境anchor,用半监督的方式监督高级语境特征学习。 我们称之为粒子加速器。 其次,我们提出了一种低层二级特征金字塔互联网,将足够高级别的上下文语义特征和低级的人脸特征结合起来,使得pyramidbox能够一次预测所有大小的人脸,而不会重复。 再次,我们引入了对语境敏感的结构,扩大了预测互联网的容量,提高了最终的输出精度。 此外,还使用“数据-anchor-采样”的方法扩展了不同大小的训练样本,增加了小面孔训练数据的多样化。 pyramidbox完全利用语境的价值,在两个常用的人脸检测标准fddb和wider face上脱颖而出,取得了目前的优势水平。
标题:“世界权威评测冠军:百度人脸检测算法PyramidBox的背后”
地址://www.manthraah.com/lyxw/20166.html