课程学习-CS224n-Lecture-3-Word Window Classification and Neural Networks

假设有训练集样本

假设固定，训练一个softmax/logistic regression去更新权重。

通过softmax计算后验概率：

并采用交叉熵损失进行优化(等同于最小化类别的负对数概率)，交叉熵损失函数为：

解决非线性问题和适用于更复杂场景

同时学习权重和word vectors

通常包括两部分：1）实体边界识别；2）确定实体类别（人名、地名、机构名或其他）

目的：找到并对文本中的命名实体进行分类，主要包含人名、地名、机构名等。

难点：实体边界难找；很难保证是否是实体；很难知道某些未见过的实体的类别；命名实体可能有多个类别

思想：通过邻域的context window对word进行分类

做法：将window中的vector进行平均，再进行分类

问题：会丢失位置信息

做法：将window中所有的vector进行concat，再对这个新的vector进行分类判断，如果center word为某个类型的实体词(如地点)，则希望对应有较高的分数。

具体而言，对于窗口大小为，concat的新的vector如下：

使用神经网络层计算得到非归一化的得分，结合softmax并配合交叉熵损失函数进行优化。假设表示输入词向量，表示对应标签，假设有个类别，则对应类别为的概率为：

则交叉熵损失为：

此时通过反向传播求导更新参数和word vector。