0语料下,怎样经过「贴标签」得到更好的多说话翻译成效

2022-11-17 09:34:32 作者:清水入喉
导读:0语料下,如何通过「贴标签」获得更好的多语言翻译效果,机器之心专栏作者:吴礼蔚、程善伯来自火山翻译团队的研究者通过研究发现,不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据...

呆板之心专栏

作者:吴礼蔚、程善伯

来自火山翻译团队的研究者通过研究发觉,差别说话标签对多说话 Zero-shot 翻译的庞大影响,并在数据相差很大的三个差别的数据集上举行了试验,验证了差别说话标签对多说话 Zero-shot 翻译的确存在庞大影响,而且评释 T-ENC 在 Zero-shot 上优于其他说话标签。

现今的多说话翻译模子,大多是在一个以英语为中间的数据集上练习一个同一的模子,并通过添加说话标签的方法来报告模子应该翻译到哪一种说话。这种模子在猜测的时间可以或许直接在一个非英语的句子上添加另一个非英语的说话标签来直接翻译,从而到达纵然在练习时没有见过源说话和目的说话的情形下,也能实现模子翻译,这便是所谓的 zero-shot 多说话翻译。

添加说话标签的方法有许多种,来自火山翻译团队的研究者通过试验研究发觉,固然差别的说话标签对监视偏向的成效险些没有影响,但是对 zero-shot 的成效却有着非常大的影响。这个征象在多个数据集上得到了验证,此中 IWSLT17 上相差 14.02 个 BLEU,Euporal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。现在该研究已被 the findings of ACL 2021 吸收

论文地点:http://arxiv.org/abs/2106.07930

研究配景和动机

在多说话翻译中,有很多添加说话标签的要领,而且普通都以为差别的说话标签的添加要领对模子的性能没有影响,然而之前没有研究者体系性地研究说话标签对翻译模子是否有影响。这篇文章比力了四种常见的说话标签的添加要领。

表 1 四种差别的的说话标签

如表 1 所示,这四种要领会将源说话标签和目的说话标签根据差别的要领加到源句首大概目的句首。

表 2 数据集详情

如表 2 所示,这篇文章选择了 IWSLT17,Euporal 和 TED talks 三个数据集,这三个数据集在说话数目和数据集巨细上都有比力大的差别。这篇文章在这三个数据集上基于上述四种差别的说话标签练习了设置装备摆设完全一样的多说话翻译模子。

试验效果

表 3 试验效果

如表 3 所示,可以看到:

1. 对付差别的说话标签,差别的数据集,在有监视的偏向上,模子的体现根本同等。

2. 在 Zero-shot 偏向上:

a. 差别的说话标签对模子的性能有着很大的影响,而且,T-ENC 的体现在三种数据集上同等地凌驾了其他三种标签:在 IWSLT17 上凌驾了 14.02 个 BLEU,在 Euporal 上凌驾了 24.24 个 BLEU,在 TED talks 上凌驾了 8.78 个 BLEU。

b. 差别说话标签导致的 off-target 的比例也不雷同(off-target 是指翻译到说话 X 时,却翻译成另一个说话的情形),根本上 T-ENC 的 off-target 的比例都要比另外小,这一点和模子在 zero-shot 上的性能根本同等。

阐发

那么是什么缘故原由导致了这种征象?这篇文章试图从三个方面解说这个征象并在 TED 数据集上做了试验:

1. 在目的说话雷同的情形下,说话标签的添加方法是否影响了差别说话的句子颠末 Encoder 之后的表现的同等性?

2. T-ENC 可以得到相对付其他要领更小的 off-target 比例,是不是因为在猜测的时间,它的 attention 细致力机制可以或许更好地细致到说话标签?

3. 意思雷同的差别说话的句子,在翻译模子的每一层的相似性怎样?

Encoder 的表现的同等性

上图是通过对 Encoder 的输出访用 t-SNE 降维,之后利用 kde 画出来的漫衍图,展示了差别说话的句子在目的说话雷同的情形下的漫衍,可以发觉 T-ENC 差别说话之间的 Encoder 表现漫衍越发同等。这评释,T-ENC 可以或许关心模子进修到说话无关的 Encoder 表现。

缓解 off-target 的题目

上图通过一个 case study 展示了从一个俄语句子翻译到意大利语句子时,差别的说话标签下,模子的 attention 对意大利语标签的 “存眷” 水平,明显利用 T-ENC 时,模子对意大利语标签的存眷水平最高,这可以必然水平上解说为什么 T-ENC 拥有最小的 off-target 比例。

差别层的相似性

上图的子图 a 展示了,从除了英语和俄语外的 18 个说话翻译到俄语的时间,意思雷同的句子在差别说话之间的表现的相似性,可以看到 T-ENC 的相似性曲线一向在其他的说话标签之上,这评释在目的说话雷同的时间,T-ENC 各层的表现相比于其他的要领都有更好的同等性。

上图的子图 b 展示了,从俄语翻译到除了英语和俄语外的 18 个说话翻译的时间,统一个俄语句子在差别目的说话下的相似性,可以看到 T-ENC 的相似性曲线险些一向在其他的说话标签下方,这评释,当目的说话差别的时间,T-ENC 可以或许更好的天生目的说话相干的表现。

总结

该研究发觉了差别说话标签对多说话 Zero-shot 翻译的庞大影响,并在数据相差很大的三个差别的数据集上举行了试验,验证了差别说话标签对多说话 Zero-shot 翻译的确存在庞大影响,而且评释 T-ENC 在 Zero-shot 上优于其他说话标签。同时该研究还阐发了差别说话标签对模子在猜测时表现的影响,发觉 T-ENC 可以或许更好地得到与目的说话相干而与源说话无关的表现:

1. T-ENC 能使差别源说话句子颠末 Encoder 的表现更同等。

2. T-ENC 的细致力机制可以或许更好的细致到目的说话的说话标签。

3. T-ENC 在差别层的表现相对付其他要领与目的说话的相干性更强。

参考文献

[1] Wu L, Cheng S, Wang M, et al. Language Tags Matter for Zero-Shot Neural Machine Translation[J]. arXiv preprint arXiv:2106.07930, 2021.

[2] Johnson M, Schuster M, Le Q V, et al. Google’s multilingual neural machine translation system: Enabling zero-shot translation[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 339-351.

精彩图集