你是什么鸟?AI 十级“找茬”选手降生

2022-11-16 15:05:58 作者:一杯断肠酒
导读:你是什么鸟?AI 十级“找茬”选手诞生,你算个什么鸟?面对上面这两张图,一个 AI 发出了灵魂拷问。左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。一眼识破的它早就看到左边的鸟的喙部...

你算个什么鸟?

面临上面这两张图,一个 AI 发出了魂魄拷问。

左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉。

一眼看破的它早就看到左边的鸟的喙部和眼圈与右边的纷歧样。

不可,再来!再来看这组。(文末发表答案)

好,我放弃了。

这个来自浙大盘算机学院和阿里宁静的“找茬”选手,辨认正确率到达了 91.3%,已经是业内最优程度。研究结果已被多媒体国际顶会 ACM MM 2021 收录。

不但鸟,阿猫阿狗也能行,乃至花卉植物也能行。

看看这连两张照片,吉娃娃照旧英国玩具梗?

再来看这一波,羊驼照旧美洲驼?驴照旧骡?玫瑰照旧羽衣甘蓝?

AI 好眼光!那究竟是怎样练成的?

AI 怎样练就的一副好眼光?

现实上,这涉及到盘算机视觉范畴一个经典题目 —— 细粒度图像辨认,让 AI 一眼锁定种别之间的渺小差别。

看起来简洁,现实不简,就好比下面左边这俩。

对付 AI 来说,地区细致力的定位和放大是包管辨认正确率一个紧张身分,此前大量基于 CNN 的探究发觉,CNN 的感觉野有限,且缺乏全局依靠干系的建模本领。(感觉野:网络内部的差别位置的神经元对原图像的感觉范畴)

研究职员以为,与 CNN 相比,图像序列化是一种全新的方法。

他们把眼光转向了近来在 CV 范畴取得了非常多研究希望的视觉 Transformer(ViT)。

一开始,研究职员引入了 ViT 中的自细致力机制,提取图像中的长间隔依靠干系。

不外 ViT 的感觉野巨细相对牢固,对图像中的每个 patch 的存眷水平没有孕育发生区分,也就给细粒度图像辨认带来了性能范围。

既然云云,那该怎样让 AI 找准“重点”呢?

研究职员决定利用细致力权重的强度来权衡对应于原始图像的 patch 紧张性,提出了多标准轮回细致力的 Transformer(RAMS-Trans)。

它使用 Transformer 的自细致力机制,以多标准的方法轮回地进修鉴别性地区细致力。

团队成员之一,阿里宁静图灵试验室算法专家炫谦先容道:

我们要领的焦点是动态 patch 发起模块 (DPPM)指导地区放大,以完成多标准图像 patch 块的集成。

DPPM 从全局图像开始,迭代放大地区细致力,以每个标准上孕育发生的细致力权重的强度为指标,从全局到局部天生新的 patch 块。

详细来说,起首提取 ViT 每层的自细致力机制,并举行归一化,然后接纳累乘的方法对自细致力整合。

然后,得到了整合后的自细致力均值漫衍矩阵,因为细粒度图像辨认使命的要害身分在于局部细致力,其每每存在于图像的局部地区,如鸟的尾部、喙和蛙类的头部等。

是以研究者必要通过设定阈值的方法来“过滤”不必要的部位,加强对局部鉴别性地区的辨认本领。

最终,研究者通过插值算法将选定的 patch 块放大到原图像的尺寸,通过共享参数的模子,重新举行练习,团体布局对应于文章所提的多标准轮回机制。

下图为 RAMS-Trans 在辨认鸟类时依据细致力权重天生的细致图(attention map)。

△第二、三行分别为从原始和重新练习过的细致权重天生

扩展到更多动物身上的成效:

战绩怎样?

RAMS-Trans 只必要 ViT 自己附带的细致力权重,就可以很简单地举行端到真个练习。

试验评释,除了高效的 CNN 模子外,RAMS-Trans 的体现比同期举行的事情更好,分别在 CUB-200-2011(鸟类辨认)、Stanford Dogs(狗类辨认)、iNaturalist2017(动植物辨认)得到 SOTA。

分别到达 91.3%、68.5%、92.4% 的辨认正确率。

在差别种类动植物的细粒度鉴别时,RAMS-Trans 可以聚焦到种别的奇特特性地区。

△第二、四、六行分别为放大到原图像尺寸的的 patch 块

针对差别种别辨认正确率差别,乃至另有较大的区别,一作浙大博士胡云青解说道,重要有两方面的身分。

一是由于 Stanford Dogs 自己的种别数比其他两个数据集都要小。只有 120 分类(CUB 是 200,而 iNaturaList 更是到达了 5089)。

种别数越多,通常意味着该数据集的细粒度题目越严峻,是以 RAMS-Trans 在更细粒度的数据集上取得的提拔相对显着。

二则由于在某个种别上大部门样本具有相似的特性,而差别种类间的狗也具有显着的鉴别性特性。

好比大部门博美都有相似的毛色和头型;德牧和金毛之间,人眼就可以做到显着区分。

通过溶解试验发觉,当辨别率为 320、阈值为 1.3、patch 方案为 DPPM、patch 块巨细为 16x16 时,模子成效最好。

接下来,团队还将在两个方面举行优化:

  • 进步定位本领。

现在,RAMS-Trans 在原图上以 patch 为最小单元举行鉴别性地区定位和放大的历程,对付细粒度图像辨认来说,这个较为“精致”的使命来说照旧相称粗旷。

  • 动态网络的引入,包罗动态练习和动态推理等。

别的,已经有了可预见的应用场景,好比野生动物爱护管理、盗窟牌号的辨认。

浙大 & 阿里宁静

这项研究重要由浙江大学盘算机学院、阿里宁静图灵试验室配合完成。

此中第一作者胡云青,现在浙江大学盘算机学院 DMAC 试验室博士在读,师从张寅传授。别的照旧阿里宁静图灵试验室练习生。

精彩图集