零样天性能逾越小样本,谷歌1370亿参数新模子比GPT-3更强

2022-11-17 09:37:46 作者:- 超级自恋男
导读:零样本性能超越小样本,谷歌1370亿参数新模型比GPT-3更强,机器之心报道机器之心编辑部在 NLP 领域,pretrain-finetune 和 prompt-tuning 技术能够提升 GPT-3 等大模型在各类任务上的性能,但...

呆板之心报道

呆板之心编辑部

在 NLP 范畴,pretrain-finetune 和 prompt-tuning 技能可以或许提拔 GPT-3 等大模子在各种使命上的性能,但这类大模子在零样本进修使命中的体现依旧不突出。为了进一步发掘零样本场景下的模子性能,谷歌 Quoc Le 等研究者练习了一个参数目为 1370 亿的自回来说话模子 Base LM,并在此中采纳了全新的指令调解(instruction tuning)技能,效果表现,采纳指令调解技能后的模子在天然说话推理、阅读了解和开放域问答等未见过的使命上的零样天性能逾越了 GPT-3 的小样天性能。

大范围说话模子(LM)已经被证明可以很好的应用到小样本进修使命。比方 OpenAI 提出的 GPT-3 ,参数目达 1,750 亿,不但可以更好地答题、翻译、写文章,还带有一些数学盘算的本领等。在不举行微调的情形下,可以在多个 NLP 基准上到达开始进的性能。

然而,像 GPT-3 如许的大范围说话模子在零样本(zero-shot)进修使命中体现不是很突出。比方,GPT-3 在实行阅读了解、问答和天然说话推理等使命时,零样本的性能要比小样本(few-shot)性能差许多。

本文中,Quoc Le 等来自谷歌的研究者探究了一种简洁的要领来进步大型说话模子在零样本情形下的性能,从而扩大受众范畴。他们以为 NLP 使命可以通过天然说话指令来形貌,比方「这部影评的感情是正面的照旧负面的?」大概「把『how are you』译成汉语」。

该研究采纳具有 137B 参数的预练习模子并实行指令调解使命,对 60 多个通过天然说话指令表达的 NLP 使命举行调解。他们将这个效果模子称为 Finetuned LANguage Net,或 FLAN。

  • 论文地点:http://www.yaotansuo.com/allimgs/39tansuo/20221117/4195.png.pdf style="text-align: left;" data-track="15">GitHub 地点:http://github.com/google-research/flan.

为了评估 FLAN 在未知使命上的零样天性能,该研究依据 NLP 使命的使命范例将其分为多个集群,并对每个集群举行评估,同时在其他集群上对 FLAN 举行指令调解。如下图 1 所示,为了评估 FLAN 实行天然说话推理的本领,该研究在一系列其他 NLP 使命(如知识推理、翻译和情绪阐发)上对模子举行指令调解。因为此设置确保 FLAN 在指令调解中未见天然说话推理使命,是以可以评估其实行零样本天然说话推理的本领。

评估评释,FLAN 明显进步了模子(base 137B 参数)的零样天性能。在 25 个评估使命中,FLAN 零样本在 19 项使命上优于具有 175B 参数 GPT-3 零样本,乃至在很多使命(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也明显优于 GPT-3 小样本。在溶解研究中,研究发觉在指令调解中增添使命集群的数目,可以进步模子在未见过的使命的性能,而且指令调解的利益只有在模子范围充足大的情形下才会显现。


该研究实证效果夸大了说话模子利用天然说话指令形貌使命的本领。更遍及地说,如图 2 所示,指令调解联合了预练习微调(pretrain–finetune)特点,并通过利用 finetune 监视来进步说话模子相应推理时文本交互的本领。

FLAN:用指令调解革新零样本进修

指令调解的动机是进步说话模子相应 NLP 指令的本领,旨在通过利用监视来教 LM 实行以指令形貌的使命。说话模子将学会遵照指令,纵然对付未见过的使命也能实行。为了评估模子在未见过的使命上的性能,该研究根据使命范例将使命分成多个集群,当其他集群举行指令调解时,留出一个使命集群举行评估。

使命和模板

该研究将 62 个在 Tensorflow 数据集上公然可用的文本数据集(包罗说话了解和说话天生使命)聚合到一路。下图 3 表现了该研究利用的全部数据集;每个数据集被归类为十二个使命集群之一,每个集群中的数据集有着雷同的使命范例。


该研究将使命界说为由数据集给出的一组特定的输入 - 输出对。对付每个使命,研究者手动编写十个奇特的模板,利用天然说话指令形貌使命。十个模板大多形貌的是原始使命,但为了增添多样性,研究者为每个使命,提供了最多三个「变动使命(turned the task around)」的模板,下图 4 给出了天然说话推理使命的多个指令模板。


练习细节

模子架谈判预练习。在试验中,该研究利用麋集的从左到右、仅解码器、137B 参数的 transformer 说话模子。该模子在一组网络文档(包罗含盘算机代码的文档)、对话数据和 Wikipedia 上举行预练习,这些文档利用 SentencePiece 库 (Kudo & Richardson, 2018),被 tokenize 为 2.81T BPE token 和 32K token 的词表。约莫 10% 的预练习数据黑白英语的。这个数据集不像 GPT-3 练习集那么洁净,并且还混淆了对话和代码。

试验效果

研究者分别在天然说话推理、阅读了解、开放域问答、知识推理、共指消解和翻译等多项使命上对 FLAN 的性能举行了评估。对付每一项使命,他们陈诉了在全部模板上性能的均匀和尺度偏差,这代表了给定典范天然说话指令时 FLAN 的预期性能。

天然说话推理使命

下表 1 展示了差别模子天然说话推理测试的效果,此中给定一个条件与假设——模子一定确认在给定条件为真的情形下假设也为真。可以看到,FLAN 在全部情形下均体现出壮大的性能。

只管在 CB 和 RTE 的差别模板的效果中存在高方差,但 FLAN 在没有任何 prompt 工程时依旧在四个数据集上明显优于零样本和小样本 GPT-3。在具有最佳 dev 模板时,FLAN 在五个数据集上优于小样本 GPT-3。FLAN 乃至在 ANLI-R3 数据集上逾越了监视式 BERT。

阅读了解和开放域问答使命

在阅读了解使命上,模子被要求答复关于给定文章段落的题目,效果如下表 2 所示。FLAN 在 BoolQ 和 OBQA 数据集上明显优于 GPT-3。在利用最佳 dev 模板时,FLAN 在 MultiRC 数据集上略优于小样本 GPT-3。

对付开放域问答使命,FLAN 在 ARC-easy 和 ARC-challenge 数据集上明显优于零样本和小样本 GPT-3。在 Natural Questions 数据集上,FLAN 优于零样本 GPT-3,弱于小样本 GPT-3。

知识推理和共指消解使命

差别模子在五个知识推理数据集上的效果如下表 3 所示,FLAN 在 StoryCloze 数据集上优于 GPT-3,在 CoPA 和 PiQA 数据集上媲美 GPT-3。但在 HellaSwag 和 ReCoRD 数据集上,Base LM 和 FLAN 均弱于 GPT-3。

在两个共指消解使命上,具有最佳 dev 模板的 FLAN 在 Winogrande 数据集上优于零样本 GPT-3,但在 WSC273 数据集上,Base LM 和 FLAN 均弱于 GPT-3。

翻译

研究者还在 GPT-3 论文中评估的三个数据集上测试了 FLAN 的呆板翻译性能,这三个数据集分别是 WMT’14 法语 - 英语以及 WMT’16 的德语 - 英语和罗马尼亚语 - 英语。

测试效果如下表 4 所示,Base LM 的零样本翻译性能弱,但小样本翻译效果媲美 GPT-3。FLAN 在六个评估指标中的五个上优于小样本 Base LM。与 GPT-3 雷同,FLAN 在翻译成英语使命上展示出了壮大的性能,而且与监视式翻译基线相比具有上风。

其他试验

因为该论文的焦点题目是指令调解怎样进步模子在未见过使命上的零样天性能,是以该研究的第一个溶解试验研究了指令调解中利用的集群和使命数目对性能的影响。

图 5 表现了试验效果。与预期同等,研究者观看到 3 个 held-out 集群的均匀性能随着向指令调解添加分外的集群和使命而进步(情绪阐发集群除外),证明了所提指令调解要领有助于在新使命上提拔零样天性能。

下图 6 效果评释,对付较大范围的模子,指令调解添补了一些模子容量,但也教会了这些模子遵照指令的本领,许可模子将剩余的容量泛化到新使命。

精彩图集