海内数十位NLP大佬互助，综述预练习模子的已往、如今取将来

2022-11-17 09:37:42 作者：失信的承诺

导读：国内数十位NLP大佬合作，综述预训练模型的过去、现在与未来,机器之心报道机器之心编辑部来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入地研究了预训练模型的历...

呆板之心报道

呆板之心编辑部

来自清华大学盘算机科学与技能系、中国人民大学信息学院等机构的多位学者深入地研究了预练习模子的汗青和进展趋向，并在这篇综述论文中从技能的角度理清了预练习的来龙去脉。

BERT 、GPT 等大范围预练习模子（PTM）比年来取得了庞大乐成，成为人工智能范畴的一个里程碑。因为庞大的预练习目的和庞大的模子参数，大范围 PTM 可以有用地从大量标志和未标志的数据中猎取知识。通过将知识存储到庞大的参数中并对特定使命举行微调，庞大参数中隐式编码的富厚知识可以使种种卑鄙使命受益。如今 AI 社区的共鸣是采纳 PTM 作为卑鄙使命的骨干，而不是重新开始进修模子。

本文中，来自清华大学盘算机科学与技能系、中国人民大学信息学院等机构的多位学者深入研究了预练习模子的汗青，格外是它与迁徙进修和自监视进修的特别干系，展现了 PTM 在 AI 进展图谱中的紧张职位地方。

论文地点：http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

清华大学传授、悟道项目卖力人唐杰表现：这篇 40 多页的预练习模子综述根本上算是从技能上理清了预练习的来龙去脉。

别的，该研究还回忆了 PTM 的最新突破。这些突破得益于算力的激增和数据可用性的增添，现在正在向四个紧张偏向进展：设计有用的架构、使用富厚的上下文、进步盘算服从以及举行解说和理论阐发。最终，该研究商议了关于 PTM 一系列有待办理的题目和研究偏向，而且盼望他们的看法可以或许对 PTM 的将来研究起到开导和推行动用。

利用大范围 PTM 后说话了解和说话天生使命上性能显现了明显提拔。

图（a）比年来说话模子相干的颁发文章的数目，图（b）比年来应用 NLP PTM 后模子巨细和数据巨细的增进趋向。

配景先容

近来 PTM 引起了研究职员的存眷，但预练习并不是一种新鲜的呆板进修东西。究竟上，预练习作为呆板进修的一种范式已经进展许多年了。本节先容了 AI 范畴中预练习的进展，从早期监视预练习到当前的自监视预练习，相识这些有助于相识 PTM 的配景。

迁徙进修和有监视预练习

早期预练习的研究重要涉及迁徙进修。迁徙进修的研究很大水平上是由于人们可以寄托曩昔学到的知识来办理新题目，乃至取得更好的效果。更正确的说，迁徙进修旨在从多个源使命中猎取紧张知识，然后将这些知识应用到目的使命中。

在迁徙进修中，源使命和目的使命大概具有完全差别的数据域和使命设置，但处置惩罚这些使命所需的知识是同等的。普通来说，在迁徙进修中有两种预练习要领被遍及探究：特性迁徙和参数迁徙。

在必然水平上，表征迁徙和参数迁徙奠基了 PTM 的底子。词嵌入是在特性迁徙框架下创建起来的，被遍及应用于 NLP 使命的输入。

自监视进修和自监视预练习

如图 4 所示，迁徙进修可以分为四个子设置：归纳（inductive）迁徙进修、transductive 迁徙进修、自我（self-taught）进修和无监视迁徙进修。

在这四种设置中，归纳和 transductive 设置是研究的焦点，由于这两种设置旨在将知识从有监视的源使命迁徙到目的使命。

自监视进修和无监视进修在它们的设置上有很多相似之处。在必然水平上，自监视进修可以看作是无监视进修的一个分支，由于它们都实用于未标志的数据。然而，无监视进修重要偏重于检测数据模式（比方，聚类、社区发觉和特别检测），而自监视进修仍处于监视设置（比方分类和天生）的范式中。

自监视进修的进展使得对大范围无监视数据举行预练习成为大概。与作为深度进修期间 CV 基石的监视预练习相比，自监视预练习在 NLP 范畴取得了庞大前进。

随着用于 NLP 使命的 PTM 的最新希望，基于 Transformer 的 PTM 作为 NLP 使命的骨干已成为流程尺度。受 NLP 中自监视进修和 Transformers 乐成的开导，一些研究职员探究了自监视进修和 Transformers 用于 CV 使命。这些开端高兴评释，自监视进修和 Transformer 可以压服传统的有监视 CNN。

Transformer 和表征型 PTM

论文的第三部门从占主导职位地方的根本神经架构 Transformer 开始，然后先容了两个具有里程碑意义的基于 Transformer 的 PTM，GPT 和 BERT，它们分别利用自回来说话建模和自编码说话建模作为预练习目的。这部门的最终扼要回忆了 GPT 和 BERT 之后的典范变体，以展现 PTM 的最新进展。

Transformer

在 Transformer 之前，RNN 恒久以来一向是处置惩罚序列数据（尤其是天然说话）的典范神经网络。与 RNN 相比，Transformer 是一种编码器 - 解码器布局，它应用了自细致力机制，可以并行建模输入序列的全部词之间的相干性。

在 Transformer 的编码息争码阶段，Transformer 的自细致力机制盘算全部输入词的表征。下图 5 给出了一个示例，此中自细致力机制正确地捕捉了「Jack」和「he」之间的参考干系，从而孕育发生了最高的细致力分数。

因为突出的性子，Transformer 渐渐成为天然说话了解和天生的尺度神经架构。

GPT

GPT 是第一个将当代 Transformer 架谈判自监视预练习目的联合的模子。试验评释，GPT 在险些全部 NLP 使命上都取得了明显的乐成，包罗天然说话推测、问答等。

在 GPT 的预练习阶段，每个词的条件概率由 Transformer 建模。如下图 6 所示，对付每个词，GPT 通过对其前一个词应用多头自细致力操纵，再通过按位置的前馈层来盘算其概率漫衍。

BERT

BERT 的显现也极大地推动了 PTM 范畴的进展。理论上，差别于 GPT ，BERT 利用双向深度 Transformer 作为重要布局。另有两个独立的阶段可以使 BERT 顺应特定使命，即预练习和微调（如下图 7 所示）。

颠末预练习，BERT 可以得到卑鄙使命的妥当参数。GPT 之后，BERT 在 17 个差别的 NLP 使命上进一步取得了明显的提拔，包罗 SQuAD（优于人类的体现）、GLUE（7.7% 的肯定提拔）、MNLI（4.6% 的肯定提拔）等。

GPT 和 BERT 之后

在 GPT 和 BERT 之后也显现了一些革新模子，比方 RoBERTa 和 ALBERT。

如下图 8 所示，为了更好地从未标志的数据中猎取知识，除了 RoBERTa 和 ALBERT 之外，比年来还提出了种种 PTM。一些事情革新了模子架构并探究了新的预练习使命，比方 XLNet、MASS、SpanBERT 和 ELECTRA。

设计有用的架构

在这一部门中，论文更深入地探究了 after-BERT PTM。基于 Transformer 的 PTM 的乐成引发了一系列用于天然说话及其他序列建模的新架构。普通来说，全部用于说话预练习的 after-BERT Transformer 架构都可以被归类为两个动机：同一序列建模和认知开导架构。别的，论文还在第三末节中简述了其他紧张的 BERT 变体，它们重要偏重于革新天然说话了解。

同一序列建模

研究者发觉，一系列新架构都在追求将差别范例的说话使命与一个 PTM 同一起来。论文中论述了这一方面的进展，并探究了它们为天然说话处置惩罚的同一带来的灵感。

联合自回来和自编码建模，包罗 XLNet (Yang 等, 2019) 和 MPNet (Song 等, 2020)。除了分列说话建模，另有一个偏向是多使命练习，比方 UniLM (Dong 等, 2019)。近来，GLM（Du 等，2021）提出了一种更优雅的要领来联合自回来和自编码。

有一些模子应用泛化的编码器 - 解码器，包罗 MASS (Song 等, 2019)、T5 (Raffel 等, 2020)、BART (Lewis 等, 2020a) 以及在典范 seq2seq 使命中指定的模子，比方 PEGASUS (Zhang 等，2020a）和 PALM（Bi 等，2020 ）。

受认知开导的架构

为了寻求人类程度的智能，相识我们认知功效的宏观架构，包罗决议计划、规律推理、反究竟推理和事情影象 (Baddeley, 1992) 至关紧张。论文中概述了受认知科学开导的新实验，并重点论述了可维持的事情影象和可连续的恒久影象。

可维持的事情影象，包罗基于 Transformer 的一些架构，比方 Transformer-XL (Dai 等, 2019)、CogQA (Ding 等, 2019) 和 CogLTX (Ding 等, 2020)。

可连续的恒久影象。REALM (Guu 等, 2020) 是探究怎样为变形金刚构建可连续外部影象的先驱。RAG (Lewis 等, 2020b) 将掩码预练习扩展到自回来天生。

更多 PTM 变体

除了同一序列建模和构建受认知开导的架构以外，当前大多数研究都会合在优化 BERT 的架构以进步说话模子在天然说话了解方面的性能。

一系列事情旨在革新掩码计谋，可以将其视为某种数据加强（Gu 等, 2020），包罗 SpanBERT (Joshi 等, 2020)、ERNIE (Sun 等, 2019b,c)、NEZHA (Wei 等, 2019) 和 Whole Word Masking (Cui 等, 2019)。

另一个有味的做法是将掩码猜测目的变动为更困难的目的，比方 ELECTRA（Clark 等，2020）。

使用多源数据

本节先容了一些使用多源异构数据的典范 PTM，包罗多说话 PTM、多模态 PTM 和知识加强型 PTM。

多说话预练习

在大范围英语语料库上练习的说话模子在很多基准测试中取得了庞大乐成。然而，我们生存在一个多说话的天下中，而且因为所需的本钱和数据量，为每种说话练习一个大型说话模子并不是一个最优的办理方案。是以，练习一个模子来进修多说话表征而不是单语表征大概是更好的要领。

在 BERT 之前，一些研究职员已经探究了多说话表征。进修多说话表征重要有两种要领：一种是通过参数共享来进修；另一种是进修与说话无关的束缚。这两种方法都使模子可以或许应用于多说话场景，但仅限于特定使命。

BERT 的显现评释，先对普通的自监视使命举行预练习，然后对特定的卑鄙使命举行微调的框架是可行的。这促使研究职员设计使命来预练习具有多功效的多说话模子。依据使命目的，多说话使命可分为了解使命和天生使命。

一些了解使命起首被用在非平行多说话语料库上预练习多说话 PTM。然而，MMLM（ multilingual masked language modeling ）使命不克不及很好地使用平行语料库。

除了 TLM（ translation language modeling ），另有一些其他有用的要领可以从平行语料库中进修多说话表征，如 Unicoder（Huang et al.，2019a）、ALM（Yang et al.，2020）、InfoXLM（Chi et al.，2020b）、HICTL（Wei et al.，2021）和 ERNIE-M（Ouyang et al.，2020）。

别的，该研究还遍及探究了多说话 PTM 的天生模子，如 MASS（Song et al，2019 年）、mBART（Liu et al，2020c）。

多模态预练习

基于图像 - 文本的 PTM，现在的办理方案是采纳视觉 - 说话 BERT。ViLBERT（Lu et al，2019 年）是一个进修图像和说话的 task-agnostic 团结表征模子。它利用三个预练习使命：MLM、句子 - 图像对齐（SIA）和掩码地区分类（MRC）。另一方面，VisualBERT（Li et al，2019 年）扩展了 BERT 架构。

一些多模态 PTM 设计用于办理特定使命，如 VQA。B2T2（Alberti et al，2019 年）是重要存眷 VQA 的模子。LP（Zhou et al，2020a）专注于 VQA 和图像字幕。别的，UNITER（Chen et al，2020e）进修两种模式之间的同一表征。

OpenAI 的 DALLE (Ramesh et al., 2021) 、清华大学和 BAAI 的 CogView (Ding et al., 2021) 向条件零样本图像天生迈出了更大的一步。

近来，CLIP (Radford et al., 2021) 和 WenLan (Huo et al., 2021) 探究扩大网络范围数据以举行 V&L 预练习并取得了庞大乐成。

加强知识预练习

布局化知识的典范情势是知识图谱。很多事情试图通过集成实体和干系嵌入或其与文本的对齐来加强 PTM。

Wang et al.(2021) 基于维基数据实体形貌的预练习模子，将说话模子丧失和知识嵌入丧失联合在一路以得到知识加强表征。一个有味的实验是 OAGBERT (Liu et al., 2021a)，它在 OAG（open academic graph） (Zhang et al., 2019a) 中集成了异构布局知识，而且涵盖了 7 亿个异构实体和 20 亿个干系。

与布局化知知趣比，非布局化知识更完备，但噪声也更大。

六至八章内容概述

提拔盘算服从

研究者从以下三个方面先容了怎样提拔盘算服从：