您的位置: 首页 > 文章 > Datawhale-NLP入门-打卡2

Datawhale-NLP入门-打卡2

分类: 文章 • 2025-01-31 17:52:16

本次打卡最主要的是要GloVe。

GloVe模型

Word2Vec模型，它是一种基于local context window的direct prediction预测模型，对于学习word vector，还有另一类模型是count based global matrix factorization。count based模型的经典代表是SVD(Single Value Decomposition）模型。

比较SVD这种count based模型与Word2Vec这种direct prediction模型，它们各有优缺点：Count based模型优点是训练快速，并且有效的利用了统计信息，缺点是对于高频词汇较为偏向，并且仅能概括词组的相关性，而且有的时候产生的word vector对于解释词的含义如word analogy等任务效果不好；Direct Prediction优点是可以概括比相关性更为复杂的信息，进行word analogy等任务时效果较好，缺点是对统计信息利用的不够充分。

所以Manning教授他们想采取一种方法可以结合两者的优势，并将这种算法命名为GloVe（Global Vectors的缩写），表示他们可以有效的利用全局的统计信息。

损失函数如下：
Datawhale-NLP入门-打卡2
通过可视化的方法可以看到GloVe模型的效果：

GloVe与Word2Vec性能比较

虽然GloVe的作者在原论文中说GloVe结合了SVD与Word2Vec的优势，训练速度快并且在各项任务中性能优于Word2Vec，但是我们应该持有怀疑的态度看待这一结果，可能作者在比较结果时对于GloVe模型参数选择较为精细而Word2Vec参数较为粗糙导致GloVe性能较好，或者换另一个数据集，改换样本数量，两者的性能又会有不同。实际上，在另一篇论文Evaluation methods for unsupervised word embeddings中基于各种intrinsic和extrinsic任务的性能比较中，Word2Vec结果要优于或不亚于GloVe。实际应用中也是Word2Vec被采用的更多，对于新的任务，不妨对各种embedding方法都做尝试，选择合适自己问题的方法。