今日看点

你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展。

发表于话题:512的暗示
发布时间:2021-05-21

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”

作者:Pratik Bhavsar

编译:ronghuaiyang

导读

如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了。

2018年10月BERT发布之后发生了很多事情。

你知道BERT的掩码语言模型是老派模型吗?

你知道注意力的计算不需要平方时间复杂度吗?

你知道你可以偷用谷歌的模型吗?

我们这一代人中一些最聪明的人一直在紧张地工作,并有大量的产出!NLP现在是最性感的领域????

NLProc已经走了很长的路。

我们需要另一个总结!!

这20个问题会测试你对NLP当前状态的更新程度的了解,并为任何技术讨论做好准备。

什么是最新的预训练模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的训练任务是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的数据是不是总是可以得到更好的语言模型?

T5论文说不是的,质量比数量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法对于训练语言模型是最好的?

这篇文章:https://arxiv.org/pdf/2004.03720.pdf,说一种新的方法Unigram LM要比BPE和WordPiece更好一些。

训练语言模型的最好的任务是什么

目前最好的方法是ELECTRA→在生成器的帮助下替换输入token,然后使用识别器来预测哪个token被替换了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5论文还说, dropping a span为3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer训练的时候是否需要逐步的解冻参数?

T5 论文说不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的训练预算,你会通过改变什么来得到更好的语言模型?

T5 paper建议同时提升训练的步数和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列长度超过了512,你会用什么模型?

Transformer-XL或者Longformer

Transformer的处理时间随着序列的长度是怎么扩展的?

平方扩展。

如何降低长文档的transformers处理时间,因为它是序列长度的二次函数?

Longformer使用了一种随着序列长度线性扩展的注意力机制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在语义搜索中对编码长文档非常有用。下表显示了到目前为止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表现这么好是因为注意力层吗?

论文Attention is not Explanation认为注意力没有正确地与输出相关,因此我们不能说由于注意机制,模型的表现更好。

如果我们去掉一个注意力头,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们去掉一层,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们随机初始化BERT,BERT的表现会下降很多吗

不会 —见论文 Revealing the Dark Secrets of BERT

我们真的需要模型压缩吗?

也许不是!这篇文章的笔记:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型压缩技术通过解释过度参数化模型趋向于收敛的结果类型,给我们一个关于如何训练适当参数化模型的提示。模型压缩有很多种类型,每一种都利用了一种不同类型的“简单性”,这种“简单性”通常在训练过的神经网络中可以找到:

许多权重接近于零(修剪)

权重矩阵是低秩的(权重分解)

权重能只用几个位表示(量化)

层通常学习类似的功能(权重共享)

如果暴露为API,我们可以偷一个模型来用吗?

可以的Y → 在这里解释了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

当前蒸馏的最新进展是什么样的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型训练起来比小的更快?

更大的模型更快,见这篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的应用是什么?

Knowledge distillation用来产生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

对于不同的语言产生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何设计模型?哪些是更重要的参数

这是一个很难回答的问题!所有这些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解释

测试损失 Vs 计算

测试损失 Vs 数据集大小

测试损失 Vs 参数

要设计和训练一个模型,首先要确定架构。然后得到它的参数量。由此,你可以计算出损失。然后选择所需的数据大小和计算量。

看一下图中的比例方程。

Scaling Laws for Neural Language Models

最后…

我希望你们能像我一样通过这些问题学到很多东西。要成为更好的NLP工程师,我们需要对快速发展的迁移学习有更深的理解。我相信这些想法会让你忙上几周????????????

END

英文原文:

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

标签组:[https] [pdf] [学习迁移] [nlp

本文来源:https://www.kandian5.com/articles/18687.html

相关阅读

曹无伤左司马职务解析:汉朝中央官制中的重要角色

在中国古代历史的长河中,汉朝以其完备的官制和繁荣的文化著称于世。其中,左司马这一职务在汉朝中央官制中占据着重要的地位。而曹无伤,作为秦汉之际刘邦麾下的一位将领,就曾担任过左司马这一职务。 一、汉朝中...

2025-04-03

汉明帝刘庄并未被杀:一位英明君主的传奇一生

在中国历史上,汉明帝刘庄是一位备受赞誉的君主。然而,关于“汉明帝刘庄为什么被杀”的疑问,实际上是一个基于误解的问题。根据真实的历史资料,汉明帝刘庄并未被杀,他是一位在位期间政治清明、经济繁荣、文化昌盛...

2025-04-03

三国第一毒士之争:李儒与贾诩的较量

在三国时期,谋士辈出,他们以其卓越的智谋和深邃的算计,在历史的舞台上留下了浓墨重彩的一笔。其中,李儒与贾诩两位谋士,因其毒辣的手段和深沉的心机,被后人并称为“三国第一毒士”。然而,关于这一称号究竟应归...

2025-04-03

孙恩与孙权:血缘关系的探寻

在中国历史上,孙恩与孙权都是极具影响力的人物。他们分别活跃在不同的历史时期,各自在各自的时代留下了深刻的印记。然而,近年来,关于孙恩是否是孙权后代的问题,引起了人们的广泛关注和讨论。 一、孙恩与孙权...

2025-04-03

澶渊惊雷:寇准力挽狂澜的孤勇与智慧

公元1004年的深秋,北风裹挟着辽军铁蹄的震颤,黄河岸边的澶州城笼罩在战争的阴云之下。北宋朝廷内,主和派大臣们如惊弓之鸟,或主张南迁金陵,或建议西逃蜀地。在这历史抉择的十字路口,一位目光如炬的政治家挺...

2025-04-03

杜甫的代表作:千年传颂的文学瑰宝

在中国古代文学的璀璨星河中,杜甫无疑是最耀眼的星辰之一。作为唐代伟大的现实主义诗人,杜甫以其深沉的情感、卓越的艺术成就和广泛的社会关怀,被后世尊称为“诗圣”。他的代表作不仅在当时广为流传,历经千年仍被...

2025-04-03

寒门诗魂:鲍照诗歌的刚健风骨与形式突围

在南朝绮靡文风中,鲍照如同一把淬火而出的利剑,以寒门之躯劈开时代的脂粉气。他的诗歌既是对门阀制度的血性呐喊,更是中国古典诗歌美学的一次惊险飞跃。这位被杜甫赞为"俊逸鲍参军"的诗人,用充满棱角的文字构建...

2025-04-03

盛彦师之死:李渊的权谋棋局与功臣末路

在唐朝开国功臣的星空中,盛彦师的名字曾如流星般划过,留下短暂而耀眼的光芒。他斩李密、平王世充、拒降徐圆朗,以骁勇善战著称,最终却落得被唐高祖李渊赐死的结局。这场看似悖理的历史悲剧,实则暗含李渊巩固皇权...

2025-04-03

唐朝统一战争:十年烽火铸就大一统伟业

唐朝,作为中国历史上最为辉煌灿烂的王朝之一,其统一之路却并非一帆风顺。在隋末天下大乱、群雄并起的背景下,唐高祖李渊于公元618年建立唐朝,但此时的新王朝仅占据关中、河东一隅,天下仍处于四分五裂之中。为...

2025-04-03

刘唐:梁山泊中的赤发鬼杰

在《水浒传》这部描绘北宋末年农民起义的鸿篇巨制中,刘唐以其独特的形象和鲜明的性格,成为了梁山泊一百零八将中不可忽视的一员。他绰号“赤发鬼”,紫黑阔脸,鬓边一搭朱砂记,上生一片黑黄毛,形象威猛而独特。那...

2025-04-03