动机
- 现有的预训练语言模型通常在纯文本上训练,没有引入
linguistic knowledge
和world knowledge
; - 大多数模型以自回归方式进行训练,在下游语言理解任务上表现较差。
贡献
- 提出
ERNIE 3.0
,该框架融合了自回归网络和自编码网络,使得训练好的模型能够适应自然语言理解和生成任务,具有zero-shot、few-shot、fine-tuning
等能力; ERNIE 3.0
使用纯文本和大规模知识图构成的语料库训练百亿参数模型,在一系列自然语言理解和生成任务上优于现有模型。
ERNIE
如图所示为ERNIE 3.0
的预训练框架。参照多任务学习的框架,作者认为nlp
的不同任务范式依赖于相同的底层抽象特征(如:词汇信息和句法信息),但顶层具体特征是特定于任务的,如自然语言理解任务具有学习语义连贯的倾向,自然语言生成任务期望获得更多的语境信息。
此外,延续ERNIE 2.0
引入的连续多任务学习。对于不同类型的下游任务,针对不同的任务范式,结合预训练的共享网络和相应的特定任务网络的参数进行初始化,再执行后续处理。
Framework
Universal Representation Module
图中灰色部分,通用表示网络扮演着通用语义特征提取器的角色,其参数在各种任务范式中共享。
使用Transformer-XL
作为主干网络,该通用表示模块在所有任务范例中共享参数。特别注意的是,在控制attention mask
矩阵时,memory module
仅对自然语言生成任务有效。
Task-specific Representation Module
图中蓝色和绿色部分,任务特定表示网络承担着提取任务特定语义特征的功能,其参数由任务特定目标学习。
使用多层Transformer-XL
,用于捕获不同任务范式的语义表示。图中蓝色部分为自然语言理解任务(NLU
),使用双向建模网络;绿色部分为自然语言生成任务(NLG
),使用单向建模网络。
Pre-training Tasks
ERNIE 3.0
通过Knowledge Masked Language Modeling
训练NLU
网络,提高词汇信息捕获能力;训练Sentence Reordering
和Sentence Distance
,增强句法信息捕获能力;最后利用Universal Knowledge-Text Prediction
对模型进行优化,提高知识的记忆和推理能力。同时,ERNIE 3.0
使用Document Language Modeling
训练NLG
网络,以适应各种生成样式。
Word-aware Pre-training Tasks
ERNIE 1.0
的Knowledge Masked Language Modeling
;Document Language Modeling
:传统预训练模型如GPT
。
Structure-aware Pre-training Tasks
ERNIE 2.0
的Sentence Reordering
;ERNIE 2.0
的Sentence Distance
。
Knowledge-aware Pre-training Tasks
Universal Knowledge-Text Prediction
给定知识图中的一对三元组和
encyclopedia
中对应的句子,随机mask
三元组中的关系或句子中的单词。具体而言,给定encyclopedia
中的一个文档,首先通过文档标题(头实体或尾实体被提及)在知识图中找到候选三元组,然后通过文档句子(同一句中头实体和尾实体都被提及)在候选三元组中选择三元组。该任务不仅需要考虑句子中的依赖关系,也需要考虑三元组中的逻辑关系。
Pre-training Process
训练策略:对输入序列长度、批大小、学习率、dropout rate
和training layer
使用warm-up
策略提高训练的收敛速度。
数据集:构建了个不同种类的中文文本语料库(4TB
目前最大)。
详细参数:
通用表示模块包含层,有个注意力抽头,隐层大小为;任务特定表示模块包含层,有个注意力抽头,隐层大小为。
使用GeLU
激活函数,最大序列长度为,语言生成的内存长度为。使用优化器,权重衰减为,batchsize
为,学习率为,在前个迭代中进行warmup
和线性衰减,每个预训练任务均被训练直到预训练任务的指标收敛。在前个迭代中,使用渐进式学习在预训练的初始阶段加速收敛。
部分实验结果
任务特定网络的有效性,说明区分不同任务的必要性:
Universal Knowledge-Text Prediction
任务对预训练的影响:
渐进式学习的收敛提升: