0%

动机

  • 现有的预训练语言模型通常在纯文本上训练,没有引入linguistic knowledgeworld knowledge
  • 大多数模型以自回归方式进行训练,在下游语言理解任务上表现较差。

贡献

  • 提出ERNIE 3.0,该框架融合了自回归网络和自编码网络,使得训练好的模型能够适应自然语言理解和生成任务,具有zero-shot、few-shot、fine-tuning等能力;
  • ERNIE 3.0使用纯文本和大规模知识图构成的语料库训练百亿参数模型,在一系列自然语言理解和生成任务上优于现有模型。
阅读全文 »

动机

  • 现有预训练语言模型通常基于单词和句子的共现关系来训练模型,但忽略了训练语料库中存在的其它词汇、句法和语义信息,如命名实体、语义相似度等。

贡献

  • 提出ERNIE 2.0,该框架支持自定义的训练任务和增量方式的持续的多任务学习;
  • 构建了三种无监督语言任务验证所提出框架的有效性。
阅读全文 »

2021-11-4 update Contrastive loss, Triplet loss, NCE, InfoNCE

阅读全文 »

动机

  • 基于AR的语言模型通过autoregressive model将估计文本语料库的概率分布,将似然因式分解为前向乘积或后向乘积,并对每个条件分布进行建模。其通常仅通过单向上下文进行预训练,而下游任务通常需要双向的上下文信息;
  • 基于AE的语言模型通过denoising autoencoder从损坏的输入中重建原始数据,由于不执行显式的密度估计,因此可利用双向上下文进行重建,并消除了预训练和下游任务的双向信息差异。但其引入了mask造成预训练和微调时输入的差异,且假定对于给定的unmasked tokens,每个预测的tokens彼此独立,该假设过度简化了。

贡献

  • 提出一种通用的自回归模型XLNET,该方法同时利用了ARAE语言模型的优点,一方面利用双向上下文信息,另一方面不会造成预训练和微调差异,且避免了BERT关于mask的独立性假设;
  • XLNETTransformer-XL重参数化,将其segment recurrence mechanismrelative encoding scheme集成到预训练中;
  • XLNET在多个任务上实现了最先进的效果,包括语言理解、阅读理解、文本分类、文档排名等任务。
阅读全文 »

动机

  • 现有的预训练语言模型大多只是通过上下文预测缺失单词,而没有考虑句子中的先验知识。

贡献

  • 提出一种新的方法ERNIE,该方法增加knowledge masking策略,使用phrase-levelentity-level的策略,将短语和实体的先验知识和长距离的语义依赖隐式地加入训练过程中;
  • ERNIE基于异构数据(更多样性的数据)进行训练,在中文nlp任务上的表现优于目前的方法,并通过实验验证ERNIE具有更好的知识推理能力。
阅读全文 »

动机

  • 现有的预训练语言模型仅使用单向的语言模型来学习通用的语言表征,限制了预训练模型表征的效果;

贡献

  • 提出了一种新的语言表示模型BERT(Bidirectional Encoder Representations from Transformers),其使用masked language model去训练深度双向表征,论证了双向预训练对语言表征的重要性;
  • 仅通过一个额外的输出层,即可对预训练的BERT进行微调,且刷新了 11 个任务的当前最优结果。
阅读全文 »

动机

  • 人类的视觉认知能力优于人工神经网络,如果向他们展示某一对象的单一视觉实例,通常可以归纳出对象的不同属性,并进行不同属性的组合得到新的对象;
  • 为了帮助机器对视觉对象属性的认知,现有的解纠缠表征学习通常将视觉样本映射到一个潜在空间,分离属于不同属性的信息,但这些方法通常只针对单个样本,而不是一组样本进行对比或推理;

贡献

  • 提出了一个新的学习框架:组监督学习(Group-Supervised Learning, GSL),它将数据集转换为多边图(multigraph),并从语义相关的一组样本中学习和合成具有可控属性的样本;
  • 设计了一个GSL的实例:Group-supervised Zero-shot Synthesis Network(GZS-Net),依靠重建损失和一组图像进行训练,结果优于现有的可控图像生成方法;
  • 提供了一个新的数据集:Fonts,它包含 156 万张具有不同属性的图像。
阅读全文 »

动机

  • 最近的一系列基于图像的无监督表征学习的方法均是最大化同一图像的不同视图的相似性,视频可以在各种变化因素(如运动、遮挡、光照等)下提供视觉内容的自然增强,本工作旨在将基于图像的方法推广到时空中;
  • 视觉内容通常会在视频中的一段时间持续存在,可能包含一个动作(一个人跳舞),一个物体(一个人完成跑步到走路的过渡),一个场景(一个有人在移动的房间),这种持续性覆盖不同的时间跨度,具有不同层次的视觉不变性(动作,物体,场景)。文章鼓励同一视频的不同clip中的视觉表示是相似的,并在MoCoSimCLRBYOLSwAV中都能很好地工作。

贡献

  • 提出了一种在视频上的无监督时空表征学习的大规模研究,通过对四种基于图像的框架的分析,这些方法都具有共同的目标:学习空间输入图像的跨不同视图的不变特征。文章将这一思想推广到时域,核心思想是学习一个时空编码器,在同一视频中多个不同的clips中提取的嵌入特征在时空上是持续性的;
  • 文章方法的目标是鼓励同一视频中的时间持续性特征,并且在1)不同的无监督框架、2)预训练数据集、3)下游数据集、4)骨架网络上都取得了比较好的结果。
阅读全文 »

动机

  • 计算机视觉历史证明,更大数据集的使用和增加的计算能力通常会导致范式的转变。例如:CNN-ViTViT延续了去除模型中人工设计的视觉特征和归纳偏置的长期趋势,进一步依赖于从原始数据中学习。

贡献

  • 证明了卷积和注意力能够取得良好的性能,但都不是必要的;
  • 提出了一种专门基于多层MLP体系的结构:MLP-Mixer,不使用卷积或自注意力,架构完全基于多层MLP,这些MLP在空间位置或特征通道上重复应用,只依赖于1) 基本的矩阵乘法,2) 数据布局更改(reshape和转置),3) scalar非线性。它包含两种类型的层:一种是MLP独立应用于图像patch(即“混合”每个位置的特征),一种是MLP应用于跨patch之间(即“混合”空间信息);
  • MLP-Mixer在大型数据集或现有正则化方案上进行训练时,可以在图像分类基准上获得有竞争力的分数,其预训练和推理成本可与最先进的模型相媲美。
阅读全文 »

动机

  • nlp中有丰富的无标注的文本语料,而从丰富的语料中学习语言表示可以为各种场景提供显著的提升,但现有方法仅依靠词级别的信息;
  • 如何利用无标记数据训练模型是非常有挑战性的,一是不清楚哪种类型的优化目标在学习对迁移有用的文本表示时最有效,二是对于如何最有效地将这些学习到的表征转化为目标任务,目前还没有共识。

贡献

  • 为自然语言理解任务探索了一种半监督方法,它由无监督预训练和有监督微调构成,即使用语言模型为目标在未标注的数据上训练神经网络,再基于特定任务进行有监督微调;
  • 在迁移到下游任务时,采用traversal-style方法派生的特定于任务的输入自适应方法,对预训练模型结构更改较小;
  • 在四种类型的语言理解任务中,均证实了预训练模型能够为下游任务提供有用的语义信息。
阅读全文 »