【文献阅读】Prompt-Tuning: The Power of Scale for Parameter-Efficient Prompt Tuning

发表于 2023-05-05 更新于 2026-07-14 分类于算法，文献阅读， PEFT 阅读次数： Disqus：本文字数： 527 阅读时长 ≈ 1 分钟

论文地址：

https://arxiv.org/abs/2104.08691

Prompt Tuning

在T5模型中，原始输入为\(X_e \in \mathbb{R}^{n \times e}\)，Prompt-Tuning将可学习的prompt参数\(P_e \in \mathbb{R}^{p \times e}\)和原始输入拼接起来得到\([P_e;X_e] \in \mathbb{R}^{(p+n) \times e}\)，作为模型新的输入。训练时冻结预训练模型的参数，仅对prompt参数进行训练与更新。

Prompt长度

论文针对 1，5，20，100，150五种不同的prompt参数长度进行了测试。当prompt参数长度超过20时，整体模型的效果提升并不是很明显。当预训练模型较大时，不同prompt参数长度的表现差异较小。

Prompt初始化方案

Prompt的初始化方案：

Random initialization
从T5字典中的5000个最常用tokens中提取
从任务label对应的tokens中提取

Prompt Ensemble

Average: 单条prompt的平均。
Best: 最好的一条prompt。
Ensemble: 多条prompt投票。