今日看点

你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展。

发表于话题:512的暗示
发布时间:2021-05-21

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”

作者:Pratik Bhavsar

编译:ronghuaiyang

导读

如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了。

2018年10月BERT发布之后发生了很多事情。

你知道BERT的掩码语言模型是老派模型吗?

你知道注意力的计算不需要平方时间复杂度吗?

你知道你可以偷用谷歌的模型吗?

我们这一代人中一些最聪明的人一直在紧张地工作,并有大量的产出!NLP现在是最性感的领域????

NLProc已经走了很长的路。

我们需要另一个总结!!

这20个问题会测试你对NLP当前状态的更新程度的了解,并为任何技术讨论做好准备。

什么是最新的预训练模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的训练任务是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的数据是不是总是可以得到更好的语言模型?

T5论文说不是的,质量比数量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法对于训练语言模型是最好的?

这篇文章:https://arxiv.org/pdf/2004.03720.pdf,说一种新的方法Unigram LM要比BPE和WordPiece更好一些。

训练语言模型的最好的任务是什么

目前最好的方法是ELECTRA→在生成器的帮助下替换输入token,然后使用识别器来预测哪个token被替换了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5论文还说, dropping a span为3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer训练的时候是否需要逐步的解冻参数?

T5 论文说不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的训练预算,你会通过改变什么来得到更好的语言模型?

T5 paper建议同时提升训练的步数和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列长度超过了512,你会用什么模型?

Transformer-XL或者Longformer

Transformer的处理时间随着序列的长度是怎么扩展的?

平方扩展。

如何降低长文档的transformers处理时间,因为它是序列长度的二次函数?

Longformer使用了一种随着序列长度线性扩展的注意力机制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在语义搜索中对编码长文档非常有用。下表显示了到目前为止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表现这么好是因为注意力层吗?

论文Attention is not Explanation认为注意力没有正确地与输出相关,因此我们不能说由于注意机制,模型的表现更好。

如果我们去掉一个注意力头,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们去掉一层,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们随机初始化BERT,BERT的表现会下降很多吗

不会 —见论文 Revealing the Dark Secrets of BERT

我们真的需要模型压缩吗?

也许不是!这篇文章的笔记:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型压缩技术通过解释过度参数化模型趋向于收敛的结果类型,给我们一个关于如何训练适当参数化模型的提示。模型压缩有很多种类型,每一种都利用了一种不同类型的“简单性”,这种“简单性”通常在训练过的神经网络中可以找到:

许多权重接近于零(修剪)

权重矩阵是低秩的(权重分解)

权重能只用几个位表示(量化)

层通常学习类似的功能(权重共享)

如果暴露为API,我们可以偷一个模型来用吗?

可以的Y → 在这里解释了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

当前蒸馏的最新进展是什么样的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型训练起来比小的更快?

更大的模型更快,见这篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的应用是什么?

Knowledge distillation用来产生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

对于不同的语言产生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何设计模型?哪些是更重要的参数

这是一个很难回答的问题!所有这些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解释

测试损失 Vs 计算

测试损失 Vs 数据集大小

测试损失 Vs 参数

要设计和训练一个模型,首先要确定架构。然后得到它的参数量。由此,你可以计算出损失。然后选择所需的数据大小和计算量。

看一下图中的比例方程。

Scaling Laws for Neural Language Models

最后…

我希望你们能像我一样通过这些问题学到很多东西。要成为更好的NLP工程师,我们需要对快速发展的迁移学习有更深的理解。我相信这些想法会让你忙上几周????????????

END

英文原文:

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

标签组:[https] [pdf] [学习迁移] [nlp

本文来源:https://www.kandian5.com/articles/18687.html

相关阅读

唐代李端《听筝》诗歌赏析

听筝/鸣筝唐代:李端鸣筝金粟柱,素手玉房前。欲得周郎顾,时时误拂弦。译文金粟轴的古筝发出优美的声音,那素手拨筝的美人坐在玉房前。想尽了办法为博取周郎的青睐,你看她故意地时时拨错了琴弦。赏析这首小诗轻捷...

2025-04-25

唐代白居易《问刘十九》诗歌赏析

问刘十九唐代:白居易绿蚁新醅酒,红泥小火炉。晚来天欲雪,能饮一杯无?韵译新酿的米酒,色绿香浓;小小红泥炉,烧得殷红。天快黑了大雪将至,能否一顾寒舍共饮一杯暖酒?意译我家新酿的米酒还未过滤,酒面上泛起一...

2025-04-25

唐代宋之问《渡汉江》诗歌赏析

渡汉江唐代:宋之问岭外音书断,经冬复历春。近乡情更怯,不敢问来人。译文客居岭外与家里音信断绝,经过了冬天又到了春天。离故乡越近心中越胆怯,不敢询问从家那边过来的人。赏析《渡汉江》诗意在写思乡情切,真实...

2025-04-25

唐代王维《鹿柴》诗歌赏析

鹿柴唐代:王维空山不见人,但闻人语响。返景入深林,复照青苔上。译文幽静的山谷里看不见人,只能听到那说话的声音。落日的影晕映入了深林,又照在青苔上景色宜人。赏析第一句“空山不见人”,先正面描写空山的杳无...

2025-04-25

《吕氏春秋·不苟论》不苟赏析

【原文】贤者之事也①,虽贵不苟为,虽听不自阿,必中②理然后动,必当义然后举。此忠臣之行也,贤主之所说,而不肖主之所不说。非恶其声也。人主虽不肖,其说忠臣之声与贤主同,行其实则与贤主有异。异,故其功名祸...

2025-04-25

《吕氏春秋·不苟论》赞能赏析

【原文】贤者善人以人①,中人以事,不肖者以财。得十良马,不若得一伯乐;得十良剑,不若得一欧冶②;得地千里,不若得一圣人。舜得皋陶而舜授之,汤得伊尹而有夏民,文王得吕望而服殷商。夫得圣人,岂有里数哉③?...

2025-04-25

唐代王建《新嫁娘词》古诗赏析

新嫁娘词唐代:王建三日入厨下,洗手作羹汤。未谙姑食性,先遣小姑尝。译文新婚三天来到厨房,洗手亲自作羹汤。还不熟悉婆婆的口味,做好先让小姑品尝。赏析“新媳妇难当”——在旧社会人们普遍有这种看法。但也有些...

2025-04-25

唐代王维《相思》诗歌赏析

相思唐代:王维红豆生南国,春来发几枝。愿君多采撷,此物最相思。译文红豆生长在阳光明媚的南方,每逢春天不知长多少新枝。希望思念的人儿多多采摘,因为它最能寄托相思之情。赏析这是借咏物而寄相思的诗,是眷怀友...

2025-04-25

唐代王之涣《登鹳雀楼》古诗赏析

登鹳雀楼唐代:王之涣白日依山尽,黄河入海流。欲穷千里目,更上一层楼。译文夕阳依傍着山峦慢慢沉落,滔滔黄河朝着大海汹涌奔流。想要看到千里之外的风光,那就要再登上更高的一层城楼。赏析这首诗写诗人在登高望远...

2025-04-25

王维《杂诗三首·其二》赏析

杂诗三首·其二唐代:王维君自故乡来,应知故乡事。来日绮窗前,寒梅著花未?译文您是刚从我们家乡来的,一定了解家乡的人情世态。请问您来的时候我家雕画花纹的窗户前,那一株腊梅花开了没有?赏析诗中的抒情主人公...

2025-04-25