论文阅读-pretrained-language-model-ERNIE 3.0: Large-Scale Knowledge Enhanced Pre-Training for Language Understanding and Generation

动机

现有的预训练语言模型通常在纯文本上训练，没有引入linguistic knowledge和world knowledge；
大多数模型以自回归方式进行训练，在下游语言理解任务上表现较差。

贡献

提出ERNIE 3.0，该框架融合了自回归网络和自编码网络，使得训练好的模型能够适应自然语言理解和生成任务，具有zero-shot、few-shot、fine-tuning等能力；
ERNIE 3.0使用纯文本和大规模知识图构成的语料库训练百亿参数模型，在一系列自然语言理解和生成任务上优于现有模型。

`ERNIE`

如图所示为ERNIE 3.0的预训练框架。参照多任务学习的框架，作者认为nlp的不同任务范式依赖于相同的底层抽象特征（如：词汇信息和句法信息），但顶层具体特征是特定于任务的，如自然语言理解任务具有学习语义连贯的倾向，自然语言生成任务期望获得更多的语境信息。

此外，延续ERNIE 2.0引入的连续多任务学习。对于不同类型的下游任务，针对不同的任务范式，结合预训练的共享网络和相应的特定任务网络的参数进行初始化，再执行后续处理。

`Framework`

`Universal Representation Module`

图中灰色部分，通用表示网络扮演着通用语义特征提取器的角色，其参数在各种任务范式中共享。

使用Transformer-XL作为主干网络，该通用表示模块在所有任务范例中共享参数。特别注意的是，在控制attention mask矩阵时，memory module仅对自然语言生成任务有效。

`Task-specific Representation Module`

图中蓝色和绿色部分，任务特定表示网络承担着提取任务特定语义特征的功能，其参数由任务特定目标学习。

使用多层Transformer-XL，用于捕获不同任务范式的语义表示。图中蓝色部分为自然语言理解任务(NLU)，使用双向建模网络；绿色部分为自然语言生成任务(NLG)，使用单向建模网络。

`Pre-training Tasks`

ERNIE 3.0通过Knowledge Masked Language Modeling训练NLU网络，提高词汇信息捕获能力；训练Sentence Reordering和Sentence Distance，增强句法信息捕获能力；最后利用Universal Knowledge-Text Prediction对模型进行优化，提高知识的记忆和推理能力。同时，ERNIE 3.0使用Document Language Modeling训练NLG网络，以适应各种生成样式。

`Word-aware Pre-training Tasks`

ERNIE 1.0的Knowledge Masked Language Modeling；
Document Language Modeling：传统预训练模型如GPT。

`Structure-aware Pre-training Tasks`

ERNIE 2.0的Sentence Reordering；
ERNIE 2.0的Sentence Distance。

`Knowledge-aware Pre-training Tasks`

Universal Knowledge-Text Prediction

给定知识图中的一对三元组和encyclopedia中对应的句子，随机mask三元组中的关系或句子中的单词。具体而言，给定encyclopedia中的一个文档，首先通过文档标题（头实体或尾实体被提及）在知识图中找到候选三元组，然后通过文档句子（同一句中头实体和尾实体都被提及）在候选三元组中选择三元组。该任务不仅需要考虑句子中的依赖关系，也需要考虑三元组中的逻辑关系。

`Pre-training Process`

训练策略：对输入序列长度、批大小、学习率、dropout rate和training layer使用warm-up策略提高训练的收敛速度。

数据集：构建了个不同种类的中文文本语料库(4TB目前最大)。

详细参数：

通用表示模块包含层，有个注意力抽头，隐层大小为；任务特定表示模块包含层，有个注意力抽头，隐层大小为。

使用GeLU激活函数，最大序列长度为，语言生成的内存长度为。使用优化器，权重衰减为，batchsize为，学习率为，在前个迭代中进行warmup和线性衰减，每个预训练任务均被训练直到预训练任务的指标收敛。在前个迭代中，使用渐进式学习在预训练的初始阶段加速收敛。

部分实验结果

任务特定网络的有效性，说明区分不同任务的必要性：

Universal Knowledge-Text Prediction任务对预训练的影响：

渐进式学习的收敛提升：