Learning Policies for Adaptive Tracking with Deep Feature Cascades全文翻译

最后更新：2022-07-29 05:41:20 手机定位技术交流文章

摘要

视觉对象跟踪是一项基本且耗时的视觉任务。近年来,有许多基于实时像素相关滤波器的浅跟踪方法。还有更深层次的方法,使用高性能但高性能的GPU。在本文中，我们学会提高深度追踪器的速度而不失去精度.我们的基本观点是采用一种适应性的方法,一个简单的帧使用低成本的功能(如像素值),挑战的帧使用不变但昂贵的深度特征处理。我们将把跟踪问题作为决策过程加以调整,并且学会一个代理人决定在早期层中定位具有高可靠性的对象,或者继续处理网络的后续层。这大大降低了用不同的或慢移动的对象喂养简单的帧的成本。我们以增强学习的方式训练离线代理人,此外,研究所有深度层(以提供良好的适应跟踪功能)可以导致平均跟踪速度23fpsCPU,接近实时一次。同时实现最先进的性能。也许解释这个问题的最好方法是,我们的方法在近50%的时间里提供了加速的100倍,这证明了适应性方法的强大功能。

一、简介

视觉对象跟踪（VOT）是视觉中的一个基本问题。我们考虑一个单个目标跟踪任务,其中一个在第一个视频帧中识别了一个对象,并应在下列帧中追踪,尽管物体不断缩小、阻塞等等,但外观却发生了巨大的变化。VOT是视频监控和自动驾驶等许多关键时间系统的基本组成部分。因此，视觉跟踪器必须符合严格的时间和预算限制,尤其是在移动或嵌入式计算架构中,经常需要实时分析传感器。
在这里插入图片描述

图 1. 深度特征级联自适应跟踪的学习策略。代理决定我们是否可以在级联的早期层上准确定位对象。这避免了一直等待最后一层做出决策的需要，从而节省了大量的前馈时间。

虽然在跟踪文献方面取得了很大进展,但是,在设计高精度和高速追踪器方面仍然存在巨大的挑战。实时追踪方法如TLD[21]和相关滤波器[19]经常依赖于描述性不足以消除目标和背景模糊的低层次特征。最近的几项工作 [15, 27, 11, 31, 10] 通过学习分层深度特征上的相关滤波器克服了这一限制，但实时能力基本上已经消失了。其他 Deep Trackers [41, 30, 40] 完全利用终极学习,在线精细的深度网络实现最佳性能。然而，即使在高端的GPU上,这些追踪器的速度通常是1fps左右,这太慢以供实际使用。
最新两个深度追踪器(3,18)通过在没有在线学习的情况下部署固定容量网络,大大提高了它们的速度。在跟踪期间，预先训练的网络在信道中简单地通过,以便进行相似性评估或位置回归。这允许在GPU上以实时的速度跟踪对象。然而，在现代 CPU 、智能手机或平板电脑上,这个深度跟踪器只能处理每秒几帧,远低于30fps的正常视频帧速率. 显然，主要的计算负担来自整个网络的向前传输,而更深层次的建筑则可能更大。
我们的目标是提高深度跟踪的准确性和速度,而不是使用压缩模型 [1] 作为量化变化速率的手段。我们建议学习以适应性的方式加速深度跟踪器.我们的适应性方法是基于对特定框架的轨迹复杂性的观察。例如，使用深层网络特征的最后层来跟踪较大的外观变化(如突然移动)的对象通常是有效的 — — 因为这些更高层次特征更容忍剧烈的外观变化[27]。然而，当物体视觉上不同或难以移动时,早期层通常足以准确确定位置,从而大大节省计算潜力。在极端情况下，像素层“ 0 ” 可能足够满足这些简单的帧的需要,基于像素的滤波器的成功证明了这一点。
这种适应性策略的关键在于做出正确的决定 — — 跟踪器是否应该停止在当前特征层,还是继续计算下一个特征层?为此，我们研究了一个自动实现这一目标的代理.如图 1 所示。代理学习在每个级别都能找到目标,然后决定它是否有足够的信心来输出,然后停在这里。如果没有，它将移动到下一级。这相当于学习“及时”决策策略,选择最佳跟踪层。我们将证明,这种策略学习比鼓励当前活动层响应图的阈值处理更强。这与[42]中的层选择机制也有鲜明的对比。后者只在完成整个向前转移后,从两个固定水平的音量层中选择。相反，我们将提出这个问题作为决策过程,具有早期停止能力的序列决策.具体来说，通过加强学习,我们在训练阶段学习策略[29],该策略在测试时仅适用于适应跟踪。
这样做，我们能提供比基线深度追踪器的加速度大约10倍(平均),在现有的OTB[43]和VOT[22]追踪基准上获得更高的精度。也许解释这个问题的最好方法是,我们的方法在几乎50%的时间里提供了加速的100倍,这证明了适应性方法的强大功能--事实证明,大多数帧很容易追踪!准确性得到了提高，因为网络的每个层都是直接训练的适应跟踪信息,类似以前的“深度监督”方法[25]。具体而言，我们的自适应跟踪器通过定义多层对象模板来工作网络,包含"零"像素层。使用卷积滤波器跨感兴趣区域 (ROI) 评估模板。我们使用快速相关滤波器[19]来计算网络下层响应映射。傅立叶加工大大加快了轧制过程(图1)。我们将叫我们的方法EArly-Stopping Tracker(EAST)。在单个CPU上,它的平均速度接近实时,为23.2fps,大約50%的時間大約是190fps。这使得它成为首个CPU友好的深度跟踪器,在顶级的基准测试者中。值得注意的是，我们的策略学习方法非常普遍.此外，适用于现有深度网络的端到端培训,除了视觉跟踪外,还要完成其他时间关键的视觉任务。

二、相关工作

实时跟踪和相关滤波器:视觉跟踪方法可以依靠生成模型(例如[32])或区分模型(例如[16])。通过区别目标和背景,不同的模型往往比其他模型更准确。这种跟踪器通常可以使用手工制作的特征（例如 HOG [9]）和 P-N 学习 [21]、结构化 SVM [16]、多专家熵最小化 [45] 和相关关系的各种学习方法快速运行过滤器 [4]。
其中，基于判别相关滤波器 (DCF) 的方法 [4, 19] 也是高效率和高精度的跟踪方法家族。DCF的快速速度是因为它通过使用离散傅立叶变换有效地利用训练样品的所有空间位移。开创性的 MOSSE [4] 和改进的核相关滤波器 (KCF) [19] 跟踪器可以在单个 CPU 上分别以 669 fps 和 292 fps 的速度运行，这远远超出了实时需求。DCF的最新发展,通过使用多特性通道[14,15,27,11,31,10]、尺度估计[13,26]、长期记忆[28]和边界减轻[11,12],在缓解效果方面取得了巨大的成功。但是，随着精度的提高，速度大幅下降(在高性能的GPU上最高为0)。
通过深度学习进行跟踪：在深度卷积神经网络 (CNN) 的多维特征图上直接应用相关滤波器是集成深度学习进行跟踪的一种直接方式。通常CNN的深度是固定的,在每个卷层上训练的DCF追踪器由层级集成方法[27]或自适应 Hedge算法[31]结合起来。Danelljan等人。[15]最近,引入了连续空间域公式C-COT。实现多分辨率深度特征的有效集成。C-COT及其改进的ECO[10]能够在VOT挑战中取得最佳表现[22],但由于整个深度特征空间的高维度,跟踪速度仍然很慢。
另一类深度跟踪器[41、30、40]是CNN,它在线更新预培训,在测试时指定特定对象的外观。这个跟踪器通常使用分类方法来分类许多块,选择最高分数的对象为目标对象. 不幸的是，网上培训和详细搜索严重阻碍了他们的速度。性能最好的跟踪器 MDNet [30] 的 GPU 速度仅为 1 fps 左右。最近的发展包括使用循环神经网络(RNN)[20, 7]以利用注意力机制模拟时间信息。但速度仍然很慢。
上述深度跟踪器的慢速的一个常见原因是它们总是向最后的CNN层提供完整的信号。这忽略了追踪复杂度在不同的条件下是不同的事实。我们得出的结论之一是,当前视频基准测试中的大部分帧相当简单。对于那些帧，只将转移到早期阶段是足够的。原则上，这种洞察可以用来加速许多最近的实时深度追踪器,例如GOTURN [18](GPU上165fps)和SiamFC [3](GPU上86fps),使它们更接近CPU的帧速率速度。
跟踪中的特征选择: 良好的特征对于跟踪很重要.原来的DCF追踪器仅限于一个功能频道,例如, MOSSE中的灰色图像 [4]。DCF框架后来被扩展到多通道功能,例如, HOG[13, 19], Haar-like特征[16], 双向模式[21], 和颜色属性[14]. 一般来说,手工制作的特性计算得非常便宜,但他们的判断不足以处理复杂跟踪场景.许多最近的深度追踪器(例如[41, 30])使用最后的CNN层(完全连接)的语义鲁棒特性。然而，跟踪对象的空间细节在最后层中丢失,这不是最佳的视觉跟踪。 Danelljan等人。[11]第一卷层被发现非常适合跟踪。其他作品[15、27、31、10]选择使用所有层级的音量功能,早期层可以保持高空间分辨率,更深层层更独特。
在本文中，在链结构中,我们充分利用手工生产的深轧特性。学习代理选择最小的特征层序列实现快速跟踪的目的.与FCNT不同[40],功能选择与两个预定义层只有在预传输完成后才不同。我们的选择是连续的,你可以在任何水平上停下来,早点,并有足够的信心。
特征层次结构:CNN是一个自然层次结构的建筑,它具有越来越抽象的特征。 Contemporary 工作要么通过深层监督 [25] 提高级联的最优性，或者把多个CNN堆成更深层,从粗到细的预测[35]或多个任务 [8]。我们的工作不同之处在于,我们只在层次结构中学会使用早期特征层决策策略。这种目标可以通过结合特征层次集成和增强学习来实现[36]。我们的方法与注意力层次结构有一些相似之处[39],后者使用越来越复杂的分类器。不同之处在于，注意聚类的目的是利用早期分类器消除简单的负样品和减少复杂分类器评估的负担,我们的目标是利用这些早期层次来尽可能早地作出强有力的决定。
追踪的强化学习:强化学习(RL)[29, 36]可以学习有效的策略,以采取一系列基于追踪和错误的行动。通过把它视为决策过程,它已经成功地应用于视觉任务(例如对象检测(5))。对于视觉跟踪，最近有两项工作使用 RL 在时间上关注目标区域 [44] 并选择合适的模板[6]。我们的工作是第一个使用RL学习早期决策策略来加速深入跟踪。

三、方法

我们使用深卷神经网络(CNN)作为强大的视觉跟踪功能层次结构。给定时间T的输入视频帧,使用边界框架跟踪对象的过程可以被看作是最大化一个假设对象区域集合上的信任函数 fl : Ht → R 的问题: 在这里插入图片描述
其中Ht通常由前帧目标位置周围的区域组成,L表示获取目标可信度的字体层。许多深度跟踪器 [41, 30] 利用 l = L 作为 AlexNet [24] 或更深的 VGG Net [34] 的最后一个全连接层或最后一个卷积层。其他追踪器[15、27、31、10]使用全层集合{l}Ll=1的所有卷层来充分利用特征层次结构。虽然这些方法是成功和有效的,但它们仍然很慢，并且可能不需要在简单的帧中跟踪。
在本文中，我们提出了一种原则性的序列方法,该方法从一组自适应小的特征层 {l}Lt l=1 中累积置信度 fl=1,…,Lt ®，用于有效的跟踪,不损失准确度。Lt = 2 个卷积层 C1-C2 足以跟踪图 3 中的不同人脸；但是对于杂乱背景中的模糊面孔，我们可能希望从更深的C5层收集更多的证据。在搜索这个序列的过程中,我们的方法需要调整边界框架以使用日益强大的特征来逐步定位对象。理想情况下，我们想尽量减少用于定位对象所需的传输层数目。一个现实的办法可以使用启示方法来确定什么时候进入下一个层次:例如,如果当前响应图的最大值低于阈值,则可能会前进。然而，当响应图不清晰或有多个峰值时(例如图3),可能很难定义这种启示方法。相反，我们建议通过更深入和更密集的学习,训练一个功能性代理人从头到尾。代理学习行动和搜索策略(包括早期停止标准),以便在不确定的情况下作出决定实现其目标。图2显示了我们的策略学习框架。在这里插入图片描述
图2:我们的EArly-Stopping Tracker(EAST)系统框架使用策略学习。

图3.为调整深度体积层边界框架比例所采取的实例行动的顺序。帧排列由分数图上最大分数的相对位置决定。请注意，每个分数图都是用上层的所有图表平均的。我们的机构学会了根据成绩单行事。如果信任分数很高,它会提前终止搜索。当分数表不清晰时(例如,两座山顶在模糊的背景中代表一个模糊的面孔),代理人推迟决定,并根据下一级别的更清晰的分数图扩展框架。执行进一步的操作以减少箱子,以增强信心.

3.1 全容集成网络

在本节中，我们回顾了整个卷的西亚语追踪器(3),我们利用它在速度（GPU 上 86 fps）和利用深度卷积层的准确性之间进行了良好的权衡。其他跟踪器要么太慢 [15, 27, 31, 10] 作为基线（GPU 上 <11 fps），要么我们没有明确的反应图(直接回归而不是[18])来学习策略。
暹罗网络 [3] 进行网上培训,在更大的255 × 255搜索图像x中定位127 × 127模板图像z。学习相似度函数，比较模板图像z与搜索图像x中的相同大小的候选区域,因此返回实值区域的高分,否则返回低分。这种相似性评估是关于网络中的X的全量。比穷举搜索更有效。具体来说，提出了一种关联层,以计算x中所有翻译子区域的相似性:
在这里插入图片描述
其中 φl 是第 l = 5 层（即 C5 层）的卷积特征嵌入，v ∈ R 是偏移值。这里 Fl(·,·) 是一个大小为 17×17 的置信度得分图，而不是等式中的单个置信度得分 fl(·)。 1.
在跟踪过程中，该连体网络简单地在线评估前一帧中的模板图像与当前帧中的搜索区域之间的相似度，从而加快了速度。最大分数的相对位置乘以网络的步幅，给出了对象在帧之间的平移。
我们的目标是从这些信任分数图中学习早期决策策略.(一)采用横层预测对象边界框架,(二)对预测有足够信心时,在层 l < 5 处尽早停止。请注意，分数图的尺寸取决于输入特征图的大小.早期层 l 的分数图 Fl 将比 17 × 17 高分辨率。所以我们用这个大小的样本来使它更容易学习。此外，SiamFC [3] 搜索搜索图像的多个尺度来处理尺度的变化。我们只在原来的规模上工作,以提高效率,并学习从单个预传输周期计算的热图的逐步降解框架尺度。

3.2加强学习战略

我们将作为马可夫决策过程(MDP)跟踪这个问题,该代理可以在特征层中执行一系列动作,见图 2。代理人知道什么时候停止移动到下一级,每个层如何逐步变形边界框架,边界帧被初始化为前帧的估计帧.最后的目标是输出一个尽可能少层的对象周围的紧框。挑战在于能够在每个步骤中消除监督的回报下运作。同时，鉴于各项目标的复杂性不断变化,减少定位目标的步骤数目。
我们是加强学习(RL)环境中的培训代理,学习决策策略。在RL设置中,有一套S状态和A行动,一个奖励函数R。在层l的每个步骤中,代理检查当前状态Sl,然后决定Al的动作是改变箱子或停止箱子输出.预期A1行动将减少关于对象的位置的不确定性,并获得积极或消极的奖励R1,反映当前帧覆盖对象的程度以及在动作停止之前使用多少步骤。通过最大化预期的回报,代理人学习采取行动的最佳策略,而且你可以清楚地平衡精度(寻找更多层)和效率(如果你非常自信,则尽早停止）。
行动:我们的行动集合A包含了七种不同的变异变异转换,包括一个框和终止搜索的停止行动。我们不使用代理来预测箱子的质量,相反,从尺度上的最大点数的相对位置直接计算它。例如,我们还试图要求机构翻译报告框,但发现直接从分数图推断它们简化了训练并提高了收敛性（由于动作 A 的空间更小）。
对于缩放动作，有两个全球和四个局部(变长比)变换,如图 2 所示。与 [5] 类似，这些动作中的任何一个都会使框的水平和垂直变化组合为 0.2 相对于其当前大小。我们还引入了一个完整的折叠箱折叠动作.当当前的分数表不清晰或根本无法决定时,这个操作允许代理人延迟决策.图3说明了这种情况。第一阶分数图有两个峰值,用于杂乱的场景。代理人决定不要在这个地图上采取行动,相反,等待更清晰的地图的下层采取行动(放大的框)。
状态:状态Sl代表元素群(Fl’, hl),其中Fl’是分数表,hl是采取行动的历史载体。我们定义 Fl’ = P lk=1 Fk/l 为当前层 l 和图中的所有前层的平均值。因此，不仅编码了当前所观察到的可信度,收集的信托历史也被编码。事实上,这比仅仅使用Fl更有效,和超弦表示类似,它的优点是捕捉早期的细微空间细节层和更深层的语义信息。此外，当我们平均取得的分数时,由此产生的强劲成本是可以忽略的。历史向量 hl 跟踪了过去四个运动.每个向量中的动作由一个8维单热向量或零向量表示(在处理第一个层时)。我们发现, hl ∈ R^32的包含有助于稳定轨道。
奖励：奖励函数 R(Sl-1, Sl) 反映了在采取特定动作 Al 后从状态 Sl-1 到 Sl 的定位精度提高。准确度是通过预测框 b 和真实框 g 之间的 Intersection-over-Union (IoU) 来衡量的。我们可以正式定义IoU为IoU(b, g) = area(b ∩ g)/area(b ∪ g)。因为每个Sl状态都与一个Bl箱有关,因此,奖励函数定义如下 [5]:
在这里插入图片描述
如果当前动作没有停止,精度增加到±1。这些奖励计划鼓励积极变革,甚至小精度也会提高。如果转换中没有进一步的改进,或者代理已经到达最后层 l = L,则动作应该停止。在这种情况下，奖励函数将惩罚IoU小于0.6的预测框b。请注意，这种奖励计划隐含地惩罚了大量的L层,因为Q-学习(下文详细说明)在决定行动时模拟预期的未来回报(积极或消极)。
深度 Q学习:选择行动的最佳策略应尽量提高对某一框架的预期回报。因为我们没有对选择正确的层或行动的事先了解,因此,我们通过深层次的Q学习来解决学习问题。这种方法学习了一个动作价值函数 Q(Sl, Al) 来选择在每一层给出最高奖励的动作 Al+1。学习过程由以下迭代更新行动选择策略指导: 在这里插入图片描述
Q(S′,A′)是未来回报。γ 是折扣因子。函数Q(S,A)由深度Q网络研究,如图 2 所示。它代表状态S作为输入,即, 重新构造分数向量和动作历史向量.该网络由两个128维全连接层组成,最终,8个动作被绘制成地图。每个完整的连接层是随机初始化,然后再重新排斥和放学的正规化[24]。
请注意，在训练期间，我们不仅仅是更新Q-Network的重量,当代理人在这一级别获得奖励时,它还将更新预训练的音量层。类似于深度监测网络[25],我们的方法提供一个直接的目标信号,学习每个层的特征表现,这提高了我们的适应跟踪器的性能。
使用学习策略测试:测试期间,代理人不会获得奖励或更新Q函数。它只遵循决策策略,在执行停止操作时变形箱并输出它。我们的代理平均值只有2.一个步骤是在OTB-50数据集的帧之间定位目标[42]。这意味着我们可以使用两个深度层来正确跟踪大多数对象。仅对于那些硬帧，搜索将返回一个完整的向前通行.整个跟踪算法遵循SiamFC [3]搜索,搜索前帧估计位置周围的候选区域。结果，与传统的不适应深度跟踪器相比,速度已提高到数量级. 抛开效率不谈，这些战略仍然很有吸引力,因为它们通过逐渐集中于特征层次结构中目标区域来模仿动态注意力机制。
实现细节:我们使用一个类似于SiamFC的AlexNet [24]卷架构。包括 Q-Net 在内的整个网络在 ImageNet Video [33] trainval 集（4417 个视频）上训练了 50 个 epoch，每个阶段是在机构与所有训练图像交互之后完成的。我们使用 ǫ - 贪婪[36 ] Q 来优化学习期,随机采取行动是有可能鼓励探索不同的行动策略的。在前30个时代,我们把 ε 从 1 线性变为 0.1,在剩下的20个时代, ε 固定为 0.1 。我们使用学习率1e-3,折扣因子 γ = 0.9 和批量大小 64.在单一的NVIDIA GeForce Titan X GPU和Intel Core i7 CPU上使用MatConvNet [38],使用直接随机梯度降级来更新4.0 GHz的网络参数。

3.3.廉价学习的功能

我们的策略学习可以应用于任何类型的特征层的特征层次结构.我们探讨了在像素层之后和更昂贵的深层之前使用额外的低成本特性层。成功启示在多通道HOG层中定义的有关滤波器[9],我们探索了一个可选的HOG层. 理论上，其他便宜的功能，颜色属性 [14] 可以应用。当处理我们的像素和HOG层时,我们使用快速相关滤波器。我们特别使用双相关滤波器(DCF)[19],与内核相关滤波器（2 × 较慢）、STC [46]（350 fps 但精度较低）和 SRDCF [12]（5 fps）。

4 结果

在比较我们的EArly-Stopping Tracker(EAST)与以前的工作之前,首先, 我们研究了一些重要的变量融化过程.我们用不同的特性级组合来比较EAST和变量--EAST-Pixel-HOG、EAST HOG、EAST-Pixel和基线SiamFC [3]。图4显示了不同特性层的停止概率和OTB-50的相应速度[42]。实际上，EAST在70%的时间内学会了使用早期层。因为它们足以跟踪简单的帧。用额外层处理硬帧,仅在需要时才能完成转发(如SiamFC)。图5显示了一些简单的帧和硬帧(及其停止层)在特定视频序列的例子。
显然，我们越早停止，加速就越大。EAST-Pixel-HOG(没有像素或HOG层)平均比SiamFC快4倍,在CPU.7fps速度上运行10,在GPU上是467.Run at 3 fps. 回想一下，Pixel 和 HOG 层可以由分别以 278 fps 和 292 fps 运行的快速相关滤波器 [19] 处理。通过添加这些层,EAST平均处理器加速10倍,对于那些简单的帧，100倍的CPU加速被实现。尽管与像素层相比，HOG可产生额外的特性计算费用,但它创造了更大的加速,因为它能够实现更精确的切削,因此,东欧更常被选中。请注意，由于更依赖CPU计算,因此,平均GPU速度在某种程度上被牺牲。尽管如此，EAST仍能产生23.2fps的 near-real-time CPU速度,这使得它非常有用于CPU绑定跟踪(需要很多嵌入式设备)。
表1(上)概述了这些东欧变量的速度和精度。我们使用重叠成功率(OS)作为严格的准确度。一次通过评估 (OPE) 用于比较不同阈值的 OS 速率曲线下面积 (AUC) 方面的准确性。表 1 显示，采用较强的特性层系统,提高了跟踪器的精度.我们的完整 EAST 模型的 AUC 得分达到了 0.638。由于低成本层的成本效益更高,速度也得到了提高。
表1(c)进一步比较了其他东欧变量:
EASTlast: 一直转移到最后一个元素层进行跟踪.
ASTth:如果当前响应图的最大值低于0.9,则提前。比例取决于阈值区域的大小。
• EAST−ch:不信任策略学习他的历史,即,我们使用Fl而不是Fl′ = P lk=1 Fk/l。
EAST-ah:没有行动史,没有学习策略。
EASTlast与基线SiamFC相似,因为所有的层都是被处理的,但区别在于它通过深入的监督进行训练,而且你不需要图像金字塔来建模比例。因此，它比SiamFC(在CPU方面)更好和更快。有趣的是，EASTlast比EAST更好,但速度要慢得多。这表明我们的适应性策略略有削弱了准确性。EASTth使用手动设计的灵感 stop 算法,避免使用Q-Net来预测行动,它将CPU的速度翻倍。然而，启发式策略的效果不如 Q-learning 学到的策略。最后，消除得分图和动作历史也会损害性能,可能是因为这些历史稳定了搜索过程。在这里插入图片描述
图4.不同特性层的停止概率和OTB-50数据集的结果速度[42]。对于每个具有不同的特征层次的五种模型,我们展示了CPU和GPU的平均速度(顶部),每个层(底部)在基线 SiamFC [3] (1.9 fps) 上 CPU 加速率。SiamFC搜索多尺度图像来处理尺度变化,并且我们预测了单一的向前转移的规模,从而实现连续跟踪加速.与SiamFC相比,它总是使用最后层C5,我们的早期停止策略通过适应早期层的使用(4.5倍)进一步加速跟踪。当早期层是低成本的HOG或快速的CPU速度(270+fps)的像素层时,我们可以把平均 CPU 的速度提高到数量级,并在近 50% 的时间内以大约 100 倍的速度运行.我们的完整模型 EAST 在 CPU 上以近乎实时的 23.2 fps 速度运行。另一方面，研究发现,日益依赖CPU计算通常会增加CPU的速度,但它也失去了GPU速度的一些好处。

在这里插入图片描述
图 5. 视频 David（原始视频的第 300-770 帧）和 Tiger2 中帧的停止特征层。简单和硬框架用绿色和红色标记。

OTB-50结果:OTB-50[42]基准包含50个视频序列进行评估。表 2 比较了我们的 EAST 和最先进的跟踪器的 AUC 分数：TLD [21]、GOTURN [18]、Struck [16]、KCF [19]、DSST [13]、MEEM [45 ]、RTT [7]、FCNT [40]、Staple [2]、HDT [31]、HCF [27]、LCT [28]、SiamFC [3] 和 SINT [37]。CPU/GPU速度(fps)也被报告。
在这里插入图片描述
表 1. OTB-50 数据集上曲线下面积 (AUC) 得分和速度 (CPU/GPU fps) 的一次性评估 (OPE) 结果。

EAST取得了所有方法中最高的AUC.显然,它在这样做时会更快。例如，亚美尼亚SINT在GPU上是4fps,而其他基于 GPU 的实时深度跟踪器（GOTURN 和 SiamFC）在 CPU 上的速度明显较慢（2-3 fps）。与快速关联跟踪器相比,例如,KCF定义为低成本的功能,东欧显然更准确,同时保持速度接近实时.这与深度特性(HCF和HDF)所定义的相应的滤波器相差,后者甚至使用GPU,不是实时的。 Staple 跟踪器通过脊回归结合 HOG 和颜色特征，FCNT遵循深选的特征.EAST在精度上优于其他形式.循环目标参与者跟踪器(RTT)训练循环神经网络(RNN)以捕捉注意力为相关滤波图的调节。但是，它比EAST(CPU上3fps)快得多,AUC是0.588慢,更不准确。

表 2. OTB-50 数据集上单次评估 (OPE) 的曲线下面积 (AUC) 得分和速度（fps，* 表示 GPU 速度，否则表示 CPU 速度）。最佳结果以粗体显示。在这里插入图片描述

OTB-100结果:OTB-100[43] 本数据集是OTB-50的扩展,更具挑战性。我们测试了100个视频,与最新相关跟踪器比较:RDT [6],SRDCF[12],MDNet[30],C-COT[15],ECO[10]。表3概述了它们的AUC分数和CPU/GPU速度。EAST接近最先进的精度水平,它也是OTB-100中最快的性能者。MDNet和基于相关滤波器的广告RSDCF、C-COT和ECO都有低速问题。EAST不牺牲运行时间性能以保证准确性。RDT是基于增强学习(RL)的相关的方法。它选择跟踪帧的最佳模板。EAST(也使用RL)已经证明更加准确,同時,GPU的速度增加了四倍。

表 3. OTB-100 数据集上单次评估 (OPE) 的曲线下面积 (AUC) 得分和速度（fps，* 表示 GPU 速度，其他明智的 CPU 速度）。最佳结果以粗体显示。
在这里插入图片描述

图 6. 与 VOT-14 Challenge 的 38 个跟踪器相比，我们的追踪器(红色)总排名和运行时间。我们展示了东欧及其两种变种的结果,它们总是转移到第一个(即像素层上的DCF)和最后的(即EASTlast)特征层。

VOT-14 结果：我们在来自 VOT-14 [23] Tracking Challenge 的 25 个视频上测试 EAST。图 6 比较了 EAST 与 38 个跟踪器子任务的速度和总体排名。对于排名计算，挑战首先是评估每个跟踪器的平均准确度和可靠排名(详情请参阅补充材料),然后将两个排名值平均到总排名。如图6所示,EAST实现了最佳的精度速度平衡,总的来说, 他们比所有竞争者都要好.我们还显示两个相反的EAST变量:总是转移到第一个(即像素层上的DCF[19])和最后的(即EASTlast)特征层。我们的EAST能够通过自适应学习策略来利用这两个变量的速度和精度。
表 4. 我们方法的原始分数和速度以及 VOT-15 挑战的前 4 名跟踪者。 * 表示以 EFO 为单位的速度。给出了我们 EAST 的 CPU/GPU 速度。在这里插入图片描述
VOT-15 结果：VOT-15 [22] Tracking Challenge 从 356 个视频池中选择了 60 个测试视频。追踪器在失败后自动重新启动五帧(零重叠)。表 4 在准确性和速度方面将我们的 EAST 与前 4 名跟踪器进行了比较（使用 vot2015 挑战工具包）。我们在此基准测试中的测试速度为 CPU 21 fps 和 GPU 148 fps，这使得EAST是最高效和最 CPU 友好的追踪器。我们得到了与MD网相比的准确度,同时GPU提供了148倍的加速,这表明了我们适应性策略学习方法的强大功能。

5、结论

提出了一种适应性跟踪深度特征层次结构的方法.我们的基本观点是,在典型的跟踪场景中,大多数帧都是简单的,因为简单的功能(如像素或Hogs)足够。也就是说，一些挑战性框架在处理变量特征时确实需要“沉重”。挑战是确定谁是谁!通过把跟踪问题当作决策过程,我们研究了一个提高学习能力的代理人,它能做出这种区别。重要的是，代理人学会以迭代的方式做这件事,有效利用特征层次结构,只有当当前层量不足时才进入更深层。这大大降低了这些简单的框架的预喂成本(减少了100倍),这大大提高了整个跟踪速度。这种学习策略方法非常吸引人,因为这是训练的终结,它可以应用于任何设计为时间临界任务的深度网络。

本文由在线网速测试整理编辑，转载请注明出处。