选自arXiv
作者:Shangzhe Wu等
呆板之心编译
编辑:陈、杜伟
在 CVPR 2020 最佳论文中,牛津大学 VGG 团队的博士生吴尚哲(Shangzhe Wu)等人提出了一种基于原始单目图像进修 3D 可变形工具种别的要领,且无需外部监视。克日,该团队又提出了通过单目视频的时间对应干系来进修可变形 3D 工具,而且可用于田野情况。
从 2D 图像中进修 3D 可变形工具是一个极其困难的题目,传统要领依靠于显式监视,如要害点和模板。但是,当这些工具不在试验室等可控情况中时,传统要领会限定它们的实用性。
有没有可以革新之处呢?克日,牛津大学 VGG 团队的研究者提出了一种全新要领 DOVE(Deformable Objects from Videos),该要领可以在没有显式要害点或模板形状的情形下高效地进修可变形 3D 工具。详细来讲,DOVE 要领基于天然地提供跨时间对应干系的单目视频(monocular video),而且可以应用于「田野」情况。
DOVE 要领仅利用鸟类的 2D 图像即可猜测 3D 尺度形状、变形、视点和纹理,因而可以或许更简单地绘制鸟类行动的动画或操控它们的透视图。研究者提供了一些交互演示动画:
恒久以来工具的动态 3D 重修一向是科学家与工程师的目的。如今,DOVE 要领通过其他视频中相机差别角度拍摄的差别视图之间的对应干系,即可从一个视频片断中主动重修一个工具的形状。想象一下,假如几分钟的镜头表现两只鸟停在树上,相机的全部镜头都是静止的。这时这些信息作为输入数据输入到模子中,该模子将具有充足的猜测性,可以或许逐帧模仿下一步会产生些什么,而无需任何分外的练习或指令。
差别于现有要领的是,DOVE 要领不必要要害点、视点或模板形状等显式监视,仅依靠视频中固有的时态信息即可进修更多关于工具的多少形状。
DOVE 要领也可以或许高效地创建和绘制工具 3D 表现的动画。DOVE 算法乃至可以在没有要害点或模板形状的情形下从 YouTube 视频中进修。在给定目的检测和光流预处置惩罚模子的精确数据时,该体系可以比曩昔更快地举行练习。
要领先容
该研究的目的是从视频剪辑聚集中进修可变形工具种别的 3D 形状。详细来说,给定一个用牢固相机捕捉的工具短视频剪辑数据集,以此来练习一个重修模子,该模子将工具的单个图像作为输入,并猜测其 3D 形状、纹理和 articulated 3D 姿态。下图 2 为练习 pipeline。
图片 - 多少主动编码
重修模子输入来自视频序列的单帧 I ∈ R ^3×H×W,利用三个网络(分别为 f_S、f_T 和 f_P)猜测工具的 articulated 3D 形状、纹理和刚性姿态。然后重新组合这些信息以天生(衬着)工具的图像,可以将其与输入视频帧举行比力以举行监视。
形状由具有牢固毗连性和可变极点位置 V ∈ R^3×K 的三角网格给出。该研究分两步猎取 V ,来区分特定于实例的形状改变和特定于帧的枢纽关头。
Articulated 形状模子
第一步是在范例的「静止姿态」中重修一个特定视频工具实例的形状 V_ins。这解说了差别的工具实例(比方差别的鸟)具有相似但差别形状的究竟。形状由下式给出:
此中,V_cat 是可进修的特定类模板, ∆V_ins 为特定于实例的形状改变。
从视频中进修
该研究的目的是从视频序列聚集
中进修重修模子,此中每个序列 S_i 包罗帧
,此中,i 为序列索引,t 为帧索引(时间)。这些序列是通过利用实例支解技能 Mask R-CNN 对视频举行预处置惩罚得到的。
试验效果
数据集包罗大量的鸟类短视频片断,这些视频片断来自 YouTube。Mask R-CNN 用来检测和支解鸟类实例,之后视频被主动支解成片断,每个片断包罗一只鸟,图片巨细调解为 128 × 128 用于练习。
下图 3 为单帧重修效果,细致在推理历程中不在必要视频。该研究不必要表现 3D、视点大概要害点信息举行监视,仅从单目练习视频中重修正确的 3D 形状。
该研究还与 SOTA 模子举行了比力,模子包罗 CMR、U-CMR、UMR、VMR,效果如表 2 所示,由效果可得,该研究提出的模子实现了更好的形状重修和时间同等性。
下图 4 展示了差别要领之间的定性比力。在以往的要领中,CMR 要领天生了最具鲁棒的重修效果,这得益于它依靠要害点监视,但对付一些挑衅性的姿态依旧体现欠安,如主视图等。DOVE 在没有利用要害点或模板监视的情形下重修了正确的形状和姿态。而且与其他要领相比,该要领得到的重修效果具有更高的时序同等性。必要细致,研究者的模子是在 128 × 128 图像上练习的,其他要领在 256 × 256 图像上练习(除了 U-CMR),而且从输入图像中采样纹理,是以纹理质量存在差别。