您所在的位置：首页 > 最新热文 > 探索发现

你是什么鸟？AI 十级“找茬”选手降生

2022-11-16 15:05:58 作者：一杯断肠酒

导读：你是什么鸟？AI 十级“找茬”选手诞生,你算个什么鸟？面对上面这两张图，一个 AI 发出了灵魂拷问。左边桃面牡丹鹦鹉，右边费氏牡丹鹦鹉。一眼识破的它早就看到左边的鸟的喙部...

你算个什么鸟？

面临上面这两张图，一个 AI 发出了魂魄拷问。

左边桃面牡丹鹦鹉，右边费氏牡丹鹦鹉。

一眼看破的它早就看到左边的鸟的喙部和眼圈与右边的纷歧样。

不可，再来！再来看这组。（文末发表答案）

好，我放弃了。

这个来自浙大盘算机学院和阿里宁静的“找茬”选手，辨认正确率到达了 91.3%，已经是业内最优程度。研究结果已被多媒体国际顶会 ACM MM 2021 收录。

不但鸟，阿猫阿狗也能行，乃至花卉植物也能行。

看看这连两张照片，吉娃娃照旧英国玩具梗？

再来看这一波，羊驼照旧美洲驼？驴照旧骡？玫瑰照旧羽衣甘蓝？

AI 好眼光！那究竟是怎样练成的？

AI 怎样练就的一副好眼光？

现实上，这涉及到盘算机视觉范畴一个经典题目 —— 细粒度图像辨认，让 AI 一眼锁定种别之间的渺小差别。

看起来简洁，现实不简，就好比下面左边这俩。

对付 AI 来说，地区细致力的定位和放大是包管辨认正确率一个紧张身分，此前大量基于 CNN 的探究发觉，CNN 的感觉野有限，且缺乏全局依靠干系的建模本领。（感觉野：网络内部的差别位置的神经元对原图像的感觉范畴）

研究职员以为，与 CNN 相比，图像序列化是一种全新的方法。

他们把眼光转向了近来在 CV 范畴取得了非常多研究希望的视觉 Transformer（ViT）。

一开始，研究职员引入了 ViT 中的自细致力机制，提取图像中的长间隔依靠干系。

不外 ViT 的感觉野巨细相对牢固，对图像中的每个 patch 的存眷水平没有孕育发生区分，也就给细粒度图像辨认带来了性能范围。

既然云云，那该怎样让 AI 找准“重点”呢？

研究职员决定利用细致力权重的强度来权衡对应于原始图像的 patch 紧张性，提出了多标准轮回细致力的 Transformer（RAMS-Trans）。

它使用 Transformer 的自细致力机制，以多标准的方法轮回地进修鉴别性地区细致力。

团队成员之一，阿里宁静图灵试验室算法专家炫谦先容道:

我们要领的焦点是动态 patch 发起模块（DPPM）指导地区放大，以完成多标准图像 patch 块的集成。
DPPM 从全局图像开始，迭代放大地区细致力，以每个标准上孕育发生的细致力权重的强度为指标，从全局到局部天生新的 patch 块。

详细来说，起首提取 ViT 每层的自细致力机制，并举行归一化，然后接纳累乘的方法对自细致力整合。

然后，得到了整合后的自细致力均值漫衍矩阵，因为细粒度图像辨认使命的要害身分在于局部细致力，其每每存在于图像的局部地区，如鸟的尾部、喙和蛙类的头部等。

是以研究者必要通过设定阈值的方法来“过滤”不必要的部位，加强对局部鉴别性地区的辨认本领。

最终，研究者通过插值算法将选定的 patch 块放大到原图像的尺寸，通过共享参数的模子，重新举行练习，团体布局对应于文章所提的多标准轮回机制。

下图为 RAMS-Trans 在辨认鸟类时依据细致力权重天生的细致图（attention map）。

△第二、三行分别为从原始和重新练习过的细致权重天生

扩展到更多动物身上的成效：

战绩怎样？

RAMS-Trans 只必要 ViT 自己附带的细致力权重，就可以很简单地举行端到真个练习。

试验评释，除了高效的 CNN 模子外，RAMS-Trans 的体现比同期举行的事情更好，分别在 CUB-200-2011（鸟类辨认）、Stanford Dogs（狗类辨认）、iNaturalist2017（动植物辨认）得到 SOTA。

分别到达 91.3%、68.5%、92.4% 的辨认正确率。

在差别种类动植物的细粒度鉴别时，RAMS-Trans 可以聚焦到种别的奇特特性地区。

△第二、四、六行分别为放大到原图像尺寸的的 patch 块

针对差别种别辨认正确率差别，乃至另有较大的区别，一作浙大博士胡云青解说道，重要有两方面的身分。

一是由于 Stanford Dogs 自己的种别数比其他两个数据集都要小。只有 120 分类（CUB 是 200，而 iNaturaList 更是到达了 5089）。

种别数越多，通常意味着该数据集的细粒度题目越严峻，是以 RAMS-Trans 在更细粒度的数据集上取得的提拔相对显着。

二则由于在某个种别上大部门样本具有相似的特性，而差别种类间的狗也具有显着的鉴别性特性。

好比大部门博美都有相似的毛色和头型；德牧和金毛之间，人眼就可以做到显着区分。

通过溶解试验发觉，当辨别率为 320、阈值为 1.3、patch 方案为 DPPM、patch 块巨细为 16x16 时，模子成效最好。

接下来，团队还将在两个方面举行优化：

进步定位本领。

现在，RAMS-Trans 在原图上以 patch 为最小单元举行鉴别性地区定位和放大的历程，对付细粒度图像辨认来说，这个较为“精致”的使命来说照旧相称粗旷。

动态网络的引入，包罗动态练习和动态推理等。

别的，已经有了可预见的应用场景，好比野生动物爱护管理、盗窟牌号的辨认。

浙大 & 阿里宁静

这项研究重要由浙江大学盘算机学院、阿里宁静图灵试验室配合完成。

此中第一作者胡云青，现在浙江大学盘算机学院 DMAC 试验室博士在读，师从张寅传授。别的照旧阿里宁静图灵试验室练习生。

相关推荐

精彩图集

图片推荐