0%

阅读全文 »

2021.8.10 update focal lossGHM

Focal LossGHM损失均是在目标检测任务,针对正负样本,其中正样本数量较少,难样本中正样本数量较多。

阅读全文 »

阅读全文 »

阅读全文 »

动机

  • 在序列建模与转换任务中,主流的模型是基于复杂的RNN的递归模型,其通常沿输入和输出序列的符号位置进行因子计算(即生成一系列隐藏状态 h_t ,t位置的 h_t 由前向状态 h_{t-1} 和当前输入生成),这种内部的固有顺序阻碍了训练样本的并行化(在序列较长时,由于内存限制会限制样本间的批处理)。
  • 注意力机制允许对依赖关系建模,而不考虑它们在输入或输出序列中的距离,但目前注意力机制通常与递归网络相结合使用。

贡献

  • 提出了一种新的简单的网络架构Transformer,完全避免循环和卷积网络,只基于Attention机制来建模输入和输出之间的全局依赖关系。
  • 在两个翻译任务上,模型质量更好、且具有更高的并行性,且训练所需要的时间更少。
阅读全文 »

动机

  • 人类可以从少样本中学到新概念,并用新学到的概念回答关于视觉场景的问题。

贡献

  • 提出了一种解纠缠神经网络D3DP-Nets,将RGB-D图像解纠缠为目标的形状、风格和背景图等,并探索了其在few-shot 3D目标检测和few-shot概念分类的应用。
阅读全文 »

动机

  • 目前大多数编辑生成图像的方法都是通过利用标准GAN训练后隐式获得的潜在空间解纠缠特性来实现部分控制,不能显式地设置某些属性地值;
  • 最近提出的方法可以显式地控制人脸属性,其利用可变形地3D人脸模型来使得GAN具有细粒度控制能力,但不能扩展到人脸领域外。

贡献

  • 使用对比学习得到一个解纠缠的GAN,保证其生成高质量且可控的图像;

  • 解纠缠的GAN被用来训练编码器将人类可解释的输入映射到合适的隐向量,从而允许显式控制。

阅读全文 »

动机

  • 现有的对比学习方法都致力于研究正对方面的选择(即不同的数据增强方法),负对的选择的研究少得多;

  • 作者认为,类似度量学习,学习对比表征也会从hard negative samples中受益,使用hard negatives的关键挑战是对比方法必须保证无监督,这使得采用现有的使用标签信息的负采样策略失效。

贡献

  • 构建了一个用于对比表征学习的hard negative pairs的采样分布(偏好当前表征非常相似的负对),并在缺乏真正不相似信息情况下(无监督情况下)提出了一个有效的采样策略;

  • 从理论上分析了目标函数和最优表征的性质,其将相似的输入放在紧密的簇类中,同时将不同簇类分隔得尽可能远;

  • 实验上观测到所提出的采样方法提高了图像、图、文本数据的下游任务性能。
阅读全文 »

动机

  • 现实情况下数据集的数量会受到限制,训练GAN时使用过少的数据通常会导致判别器过拟合,而导致它对生成器的反馈变得无意义,从而训练不收敛;
  • 数据增强在训练分类器这样的判别语义信息任务上是有效的(数据增强导致这些语义保持失真的不变性增加),但简单的数据增强在生成样本中会导致“泄漏”(即GAN会学习生成增强的数据分布,如:噪声增大会导致有噪声的结果,即使数据集中没有噪声)。

贡献

  • 演示了如何使用各种各样的增强来防止判别器过拟合,同时确保不会有任何增强泄漏到生成的图像中;
  • 提出了一种自适应判别器增强机制,在有限的数据下能够稳定训练,且有较好的生成质量,该方法不需要改变损失函数或者网络结构。
阅读全文 »

动机

  • 扩散模型定义简单,训练效率高,但还没有方法显示其能够生成高质量图像。

贡献

  • 提出了一种使用扩散概率模型(一种受非平衡热力学启发的隐变量模型)的图像合成方法;
  • 发现了扩散模型的某种参数化与训练期间在多个噪声水平上的去噪分数匹配和采样期间的annealed Langevin dynamics等价;
  • 发现了模型的大部分无损编码被用于描述难以察觉的图像细节,证明了扩散模型的采样过程是一种渐进解码类型,可以解释为自回归解码的泛化。
阅读全文 »