比手工模型快10~100倍,谷歌揭秘视频NAS三大法宝

  • 日期:02-12
  • 点击:(1936)


为了迎接这些挑战,我们进行了一系列关于自动搜索更理想的视频理解网络架构的研究。

我们展示了三种不同的神经架构进化算法:用于学习层及其模块配置的EvaNet、用于学习多流连接的汇编网络(Compassinet)和用于构建具有高计算效率的简洁网络的TinyVideoNet。

我们在多个公共数据集上开发的视频架构的性能明显优于现有的手动设计的模型,并且证明我们的网络运行时间可以减少到1/10到1/100。

EvaNet:第一批进化的视频结构

我们在2019年ICCV会议上提出了“进化的视频时空神经架构”(EvaNet),这是首次尝试搜索和设计视频神经网络架构。

Paper Link:

GitHub链接: . com/GOOG-Research/GOOG-Research/Tree/Master/Evanet

Evanet是一种模块级架构搜索方法,重点是寻找时空卷积层的类型及其最佳串行或并行计算配置。该算法使用带有变异算子的进化算法来搜索和迭代更新结构的“种群”。这使得并行和更有效地探索搜索空间成为可能,并且也是视频架构搜索考虑不同时空层及其组合的必要条件。在EvaNet中开发了几个模块(在网络的不同位置),以生成不同的体系结构。

我们的实验结果证实了通过演进异构模块获得的这种视频有线电视新闻网架构的优势。这种方法发现,由多个并行层组成的重要模块通常效率最高,因为它们比手动设计的模块速度更快,性能更好。

另一个值得注意的方面是,由于进化策略的使用,我们获得了许多性能相似但结构不同的架构,并且不需要额外的计算。集成这些模型可以进一步提高它们的性能。由于它们的并行特性,即使集成模型也比标准视频网络(如(2 1)维ResNet)计算效率更高。

EvaNet生成的不同架构示例。每个大彩盒和小彩盒代表一个网络层,盒子的颜色代表其类型:蓝色代表三维卷积,橙色代表(2 1)维卷积,绿色代表iTGM,灰色代表最大池化,紫色代表平均值,粉色代表1x1卷积。每一层通常分为模块(较大的盒子)。每个框中的数字表示卷积滤波器的大小。

汇编网络:构建更强更好的(多流)模型

在论文“汇编网络:在视频体系结构中搜索多流神经连通性”()中,我们研究了一种融合具有不同输入模式(如RGB和光流)和时间分辨率的不同子网的新方法。链接到

Papers:

汇编网络是一系列可学习的网络体系结构,提供了一种通用的方法来学习跨输入模式的特征表示之间的“连通性”,同时针对目标任务进行优化。

我们提出了一种将多流有线电视新闻网的各种形式表征为有向图的通用方法,并将其与一种高效的进化算法相结合,探索先进的网络连通性。这样做是为了从视频中更好地了解静态外观的特征和动态图片的视觉线索。

与以前使用后期融合或固定中间融合的手动设计的双流模型不同,汇编网络可以进化出许多过度连接、多流和多分辨率的体系结构,并通过学习连接权重来引导变异。我们第一次研究具有各种中间连接的四流架构。每个RGB和光流有2个流,每个流具有不同的时间分辨率。

下图显示了一个程序集网络体系结构的示例,它是通过随机初始化的多流体系结构的50到150轮演化发现的。我们在两个非常流行的视频识别数据集上测试了AssemblyNet,字谜游戏和即时时刻(MiT)。汇编网络在MiT性能方面排名第一,准确率超过34%。在哑谜游戏中,它的表现更令人惊讶,平均准确率(mAP)达到58.6%,而最着名的结果是42.5%和45.2%。

代表性的使用MiT数据集的进化集合模型。一个节点对应一个sp

On Charles(左)和MiT(右)数据集,汇编网络与最先进的手动设计模型相比较。组件-50和组件-101的参数与双流ResNet-50和ResNet-101的参数相当。

微型视频网络:最快的视频理解网络

纸链接:

为了使视频有线电视新闻网模型在真实世界的设备(如机器人所需的设备)上正常运行,必须进行实时高效的计算。然而,为了在视频识别任务中获得最先进的结果,需要非常大的网络,通常具有数十到数百个卷积层,这些卷积层将应用于大量输入帧。这也导致这些网络的运行时间通常很长。识别长度为1秒的视频剪辑在当前图形处理器上至少需要500毫秒,在中央处理器上至少需要2000毫秒。

在微型视频网络中,我们通过自动设计的网络获得了良好的性能,但其计算成本却大大降低。

我们的微型视频网络(Tiny Videonetworks)具有很高的准确性和效率,可以实时或以更高的速度高效运行。为了识别一个大约一秒钟的视频片段,它只需要在中央处理器上运行37到100毫秒,在图形处理器上运行10毫秒,这比以前手动设计的网络要快数百倍。

我们通过在架构演化过程中明确定义模型的运行时间并限制算法探索的搜索空间(包括空间和时间分辨率以及通道大小),大大减少了计算量,从而提高了性能。

下图说明了TinyVideoNet发现的两种简单但非常有效的网络体系结构。有趣的是,通过该算法学习的模型架构比经典视频架构卷积更少:微型视频网络更喜欢轻量级元素,例如2D池、门控层和挤压激励层。此外,TinyVideoNet可以优化参数和运行时,为未来的网络探索提供高效的网络。演进后的TinyVideoNet(TVN)架构

能够最大限度地提高识别性能,同时将计算时间保持在有限的时间内。例如,TVN-1(如上所列)在中央处理器上的运行时间为37毫秒,在图形处理器上为10毫秒。TVN-2(下一列)在中央处理器上运行65毫秒,在图形处理器上运行13毫秒。

左图是TinyVideoNet模型和前一个模型的CPU运行时间的比较图,右图是TinyVideoNet模型和(2 1)维ResNet模型的运行时间和模型精度的比较图。值得注意的是,TinyVideoNets的点只占据了这个时间精度空间的一小部分(在这个空间部分没有其他模型),这意味着TinyVideoNets可以非常快地找到高精度的架构。

结论

据我们所知,这是对视频理解神经网络架构搜索的首次研究。我们的新进化算法生成的视频架构在公共数据集上的性能远远优于最着名的人工设计的有线电视新闻网架构。我们还证明了通过学习获得计算效率高的视频模型(TinyVideoNets)是可行的。这项研究开辟了一个新的研究方向,表明自动进化的有线电视新闻网在视频理解任务中具有良好的研究前景。

original link: . Google blog.com/2019/10/video-architecture-search.html

这篇文章是为机器的核心而编写的,请联系这个公共号码以获得授权。回到搜狐看更多