课程学习-CS224n-Lecture 2 Word Vectors 2 and Word Senses

Word2Vec通过最大化目标函数来使得拉近相似的word vectors

为什么使用两个vector：数学上更容易进行优化，可以在最后对两个vector进行平均得到一个vector。

模型变体：

虽然使用随机梯度下降SGD更新，但仍存在两个问题导致模型效率低下。

每次梯度更新时，仅更新window中的word vector，但计算梯度时计算的整个参数矩阵，如果这个word未出现在window中，其偏导为0，则梯度矩阵非常稀疏；
目标函数中计算条件概率时采用softmax函数，其中分母计算所有context word与center word的相似度得分计算并求和。

解决方案：

可能存在的问题：随着语料库的增加，维度过高，存储占用过大；存在稀疏性问题，模型不够鲁棒。

解决方法：

使用低维度的vector，仅保存最重要的一些维度，构建dense vector;
count based model的经典工作SVD：通过统计数据得到co-occurrence matrix，再对进行奇异值分解得到，为了减少尺度并尽量保留有效信息，选取对角矩阵中最大的个值。

Count based(SVD)：

优点：训练快速，且有效利用了统计信息；

缺点：偏向于高频词，仅能概括word的相关性。
direct prediction(Word2Vec)：

优点：在其他任务上效果较好，且可以概括比相关性更复杂的信息；

缺点：受限于语料库的大小，对统计信息利用不够充分。

结合Count based Model和Direct Prediction Model的优势。

优点：训练更快；可扩展到大型语料库；在小的语料库和vector上也有较好的效果。

定义一个矩阵，其中表示word出现在word的context中的次数，则表示出现在word的context中的所有word的次数，表示word出现在word的context中的概率。

引入额外的word，比较共现概率的比值，发现如下的规律：

	相关	不相关
相关	接近1	很大
不相关	很小	接近1

由上表可知，能够反映word之间的相关性。

假设对于word vector，模型函数用来计算共现概率的比值，式子如下：

其中，表示想要比较的word vector，而表示其它的word vector。
由于向量空间为线性空间，为了计算线性空间中的相似性，假设是word vector作差的形式，则：
上式左边为矢量，而右边为标量，通过选择矢量的点积来将矢量转化为标量形式，则：
上式左边为差，右边为商，通过选取来进行关联，得到：
由上式，我们希望，即，考虑word-word co-occurrence共现矩阵的对称性，希望，但，引入两个偏置项平衡对称性，希望得到:
则理想情况下，希望上式左右两部分接近，故目标函数为：
考虑co-occurence word的出现次数的影响，加入作为权重，故最终目标函数为：

其中，权重项需要满足如下条件：
- (如果两个word没有共现，则权重为0)；
- 为非减函数(两个word共现次数越大，权重不减)；
- 对于较大的，不能取过大的值(避免一些word(比如，‘的’)共现次数较大，但其重要性较低)。
文中定义，其图像如下：

参考文献：