NLP中的自监督任务

发表于 2023-03-01 更新于 2025-08-06 分类于算法，学习阅读次数： Disqus：本文字数： 824 阅读时长 ≈ 3 分钟

在这篇文章中，我们将介绍一下NLP中经常使用的自监督任务。文章将重点介绍任务的构建思路，模型的具体实现在这里不再详细展开。

Center Word PredictionPermalink

在这个任务中，我们将获取固定窗口大小的句子片段，通过中心词周围的词来预测中心词。如下图所示：在上面的例子中，窗口大小为1，即我们取中心词左右各1个词作为窗口，然后通过窗口中的信息来预测中心词。

该任务使用的方法也被称为“Continuous Bag of Words”，在Word2Vec论文中被提出。

Neighbor Word Prediction

在这个任务中，我们同样确定一个窗口大小，但与上面的任务相反，通过中心词来预测周围的词。如下所示：该任务也被称为“skip-gram”，在Word2Vec论文中被提出。

Neighbor Sentence Prediction

在这个任务中，我们取三个相邻的句子，然后通过中间的句子预测前后句子。这和之前“skip-gram”的思路是一致的，只是将词级别的预测变为了句子级别的预测。

该任务在Skip-Thought Vectors论文中被提出。

Auto-regressive Language Modeling

在这个任务中，我们通过前文来预测当前的token: 而通过前文预测当前token是完全不需要人为标注的，因为我们只需要语料就行了，如下所示：该任务对应的最为人们熟知的模型就是GPT。

Masked Language Modeling

在这个任务中，我们随机对文本中的token进行遮盖，然后对其进行预测，和Auto-regressive Language Modeling只能使用前文信息不同，Masked Language Modeling可以同时使用前文和后文的信息来预测当前token。该任务对应的最为人们熟知的模型就是BERT。