Swin Transformer为骨干,清华等提MoBY自监视进修要领代码已开源

2022-11-17 09:34:44 作者:我愿溺海而亡
导读:Swin Transformer为主干,清华等提MoBY自监督学习方法代码已开源,作者:Zhenda Xie等机器之心编译机器之心编辑部来自清华大学、西安交大、微软亚研的研究者提出了一种称为 MoBY 的自监督学习方法,其...

作者:Zhenda Xie等

呆板之心编译

呆板之心编辑部

来自清华大学、西安交大、微软亚研的研究者提出了一种称为 MoBY 的自监视进修要领,此中以 Vision Transformer 作为其骨干架构,将 MoCo v2 和 BYOL 联合,并在 ImageNet-1K 线性评料中得到相称高的正确率,性能优于 MoCo v3、DINO 等网络。

近两年来,盘算机视觉范畴履历了两次庞大变化,第一次是由 MoCo(Momentum Contrast)开创的自监视视觉表征进修,其预练习模子颠末微调可以迁徙到差别的使命上;第二次是基于 Transformer 的骨干架构,比年来在天然说话处置惩罚中取得庞大乐成的 Transformer 又在盘算机视觉范畴得到了探究,进而孕育发生了从 CNN 到 Transformer 的建模变化。

不久前,微软亚研的研究者提出了一种通过移动窗口(shifted windows)盘算的分层视觉 Swin Transformer,它可以用作盘算机视觉的通用骨干网络。在各种回来使命、图像分类、目的检测、语义支解等方面具有极强性能。

而在克日,来自清华大学、西安交通大学以及微软亚洲研究院的研究者也在盘算机视觉范畴发力,提出了名为 MoBY 自监视进修要领,以 Vision Transformers 作为其骨干架构,将 MoCo v2 和 BYOL 联合在一路,在 ImageNet-1K 线性评料中得到相称高的正确率:通过 300-epoch 练习,分别在 DeiT-S 和 Swin-T 得到 72.8% 和 75.0% 的 top-1 正确率。与利用 DeiT 作为骨干的 MoCo v3 和 DINO 相比,性能略好,但trick要轻得多。

更紧张的是,利用 Swin Transformer 作为骨干架构,还可以或许评估卑鄙使命中(目的检测和语义支解等)的进修表征,其与近来的 ViT/DeiT 要领相比,因为 ViT / DeiT 不得当这些麋集的猜测使命,是以仅在 ImageNet-1K 上陈诉线性评估效果。研究者盼望该效果可以促进对 Transformer 架构设计的自监视进修要领举行更全面的评估。

  • 论文地点:http://www.yaotansuo.com/allimgs/39tansuo/20221117/3997.png.pdf style="text-align: left;" data-track="15">GitHub 地点:http://github.com/SwinTransformer/Transformer-SSL

要领先容

自监视进修要领 MoBY 由 MoCo v2 和 BYOL 这两个比力盛行的自监视进修要领构成,MoBY 名字的由来是各取了 MoCo v2 和 BYOL 前两个字母。MoBY 承继了 MoCo v2 中的动量设计、键行列步队、比拟丧失,别的 MoBY 还承继了 BYOL 中非对称编码器、非对称数据扩充、动量调理(momentum scheduler)。MoBY 架构图如下图 1 所示:

MoBY 包罗两个编码器:在线编码器和目的编码器。这两个编码器都包罗一个骨干和 projector head(2 层 MLP),在线编码器引入了分外的猜测头(2 层 MLP),使得这两个编码用具有非对称性。在线编码器采纳梯度更新,目的编码器则是在线编码器在每次练习迭代中通过动量更新得到的移动均匀值。对目的编码器采纳渐渐增添动量更新计谋:练习历程中,动量项值默认肇始值为 0.99,并渐渐增添到 1。

进修表搜寻用比拟丧失,详细而言,对付一个在线视图(online view)q,其比拟丧失盘算公式如下所示:

式中,κ_+ 为统一幅图像的另一个视图(view)的目的特性;κ_i 是键行列步队( key queue )中的目的特性;τ是 temperature 项;Κ是键行列步队的巨细(默以为 4096)。

在练习中,与大多数基于 Transformer 的要领一样,研究者还采纳了 AdamW 优化器。

MoBY 伪代码如下所示:

试验

在 ImageNet-1K 上的线性评估

在 ImageNet-1K 数据集上举行线性评估是一种常用的评估学得的表征质量的方法。在该方法中,线性分类器被用于骨干,骨干权重被凝结,仅练习线性分类器。练习完线性分类器之后,利用中间裁剪(center crop)在验证集上取得了 top-1 正确率。

表 1 给出了利用种种自监视进修要领和骨干网络架构的预练习模子的重要性能效果。

1.与利用 Transformer 架构的其他 SSL 要领举行比力

MoCo v3、DINO 等要领采纳 ViT/DeiT 作为骨干网络架构,该研究起首给出了利用 DeiT-S 的 MoBY 的性能效果,以便与该研究的要领举行公道比力。颠末了 300 个 epoch 的练习,MoBY 到达了 72.8% top-1 的正确率,这比 MoCo v3 和 DINO(不含多次裁剪(multi-crop))略胜一筹,效果如表 1 所示。

2.Swin-T VS DeiT-S

研究者还比力了在自监视进修中种种 Transformer 架构的利用情形。如表 1 所示,Swin-T 到达了 75.0% top-1 的正确率,比 DeiT-S 超过跨过 2.2%。值得一提的是,这一性能差距比利用监视进修还大(+1.5%)。

该研究举行的开端探究评释,牢固 patch 嵌入对 MoBY 没有效,而且在 MLP 块之前用批归一化取代层归一化层可以让 top-1 正确率提拔 1.1%(练习 epoch 为 100),如表 2 所示。

鄙人游使命上的迁徙性能

研究者评估了学得的表征在 COCO 目的检测 / 实例支解和 ADE20K 语义支解的卑鄙使命上的迁徙性能。

1.COCO 目的检测和实例支解

评料中采纳了两个检测器:Mask R-CNN 和 Cascade Mask R-CNN。表 3 给出了在 1x 和 3x 设置下由 MoBY 学得的表征和预练习监视要领的比力效果。

2.ADE20K 语义支解

研究者采纳 UPerNet 要领和 ADE20K 数据集举行评估。表 4 给出了监视和自监视预练习模子的比力效果。这评释 MoBY 的性能比监视要领稍差一点,这意味着利用 Transformer 架构举行自监视进修具有革新空间。

溶解试验

研究者又进一步利用 ImageNet-1K 线性评估举行了溶解试验,此中 Swin-T 为骨干网络架构。

1.不合错误称的 drop path rate 是有益的

对付利用图像分类使命和 Transformer 架构的监视表征进修来说,drop path 是一种有用的正则化要领。研究者通过溶解试验探究了该正则化要领的影响,试验效果如下表 5 所示。

2.其他超参数

第一组溶解试验探究了键行列步队巨细 K 从 1024 到 16384 的影响,试验效果如表 6(a) 所示。该要领在差别 K(从 1024 到 16384)下都可以或许稳健实行,此中采纳 4096 作为默认值。

第二组溶解试验探究了温度(temperature)τ的影响,试验效果如表 6(b) 所示。此中τ为 0.2 时性能最佳,0.2 也是默认值。

第三组溶解试验探究了目的编码器的初始动量值的影响,试验效果如表 6(c) 所示。此中值为 0.99 时性能最佳,并被设为默认值。

精彩图集