论文-代码-工程相关-样本不均衡问题
2021.8.10 update
focal loss
,GHM
Focal Loss
和GHM
损失均是在目标检测任务,针对正负样本,其中正样本数量较少,难样本中正样本数量较多。
课程学习-CS224n-Lecture 2 Word Vectors 2 and Word Senses
课程学习-CS224n-Lecture 1 Introduction and Word Vectors
论文阅读-language-model-Attention Is All You Need
动机
- 在序列建模与转换任务中,主流的模型是基于复杂的RNN的递归模型,其通常沿输入和输出序列的符号位置进行因子计算(即生成一系列隐藏状态,t位置的由前向状态和当前输入生成),这种内部的固有顺序阻碍了训练样本的并行化(在序列较长时,由于内存限制会限制样本间的批处理)。
- 注意力机制允许对依赖关系建模,而不考虑它们在输入或输出序列中的距离,但目前注意力机制通常与递归网络相结合使用。
贡献
- 提出了一种新的简单的网络架构
Transformer
,完全避免循环和卷积网络,只基于Attention
机制来建模输入和输出之间的全局依赖关系。 - 在两个翻译任务上,模型质量更好、且具有更高的并行性,且训练所需要的时间更少。
论文阅读-disentanglement-Disentangling 3D Prototypical Networks For Few-Shot Concept Learning
论文阅读-disentanglement-GAN-Control-Explicitly Controllable GANs
论文阅读-contrastive-learning-Contrastive Learning with Hard Negative Samples
动机
现有的对比学习方法都致力于研究正对方面的选择(即不同的数据增强方法),负对的选择的研究少得多;
作者认为,类似度量学习,学习对比表征也会从
hard negative samples
中受益,使用hard negatives
的关键挑战是对比方法必须保证无监督,这使得采用现有的使用标签信息的负采样策略失效。
贡献
构建了一个用于对比表征学习的
hard negative pairs
的采样分布(偏好当前表征非常相似的负对),并在缺乏真正不相似信息情况下(无监督情况下)提出了一个有效的采样策略;从理论上分析了目标函数和最优表征的性质,其将相似的输入放在紧密的簇类中,同时将不同簇类分隔得尽可能远;
- 实验上观测到所提出的采样方法提高了图像、图、文本数据的下游任务性能。