MLA(Multi-head Latent Attention)详解
在DeepSeek的模型层面,有两个值得关注的点:
- Multi-head Latent
Attention(MLA):这个结构对传统Transformer中的MHA结构进行改进,主要目标有两个:
- 降低推理时KV Cache的存储开销;
- 缓解GQA和MQA等方法导致的模型性能损耗。
- DeepSeekMoE:这部分结构和DeepSeek-MoE 中保持一致,两个核心思想是:
- Fine-grained Expert Segmentation,即将FFN中间层隐层维度拆分成多个更小的维度;
- Shared Expert Isolation,设置共享专家捕获常识性知识。

这篇文章先来说第一个部分, MLA(Multi-head Latent Attention)算法的原理。