丰言的博客

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

在DeepSeek的模型层面,有两个值得关注的点:

  • Multi-head Latent Attention(MLA):这个结构对传统Transformer中的MHA结构进行改进,主要目标有两个:
    1. 降低推理时KV Cache的存储开销;
    2. 缓解GQA和MQA等方法导致的模型性能损耗。
  • DeepSeekMoE:这部分结构和DeepSeek-MoE 中保持一致,两个核心思想是:
    1. Fine-grained Expert Segmentation,即将FFN中间层隐层维度拆分成多个更小的维度;
    2. Shared Expert Isolation,设置共享专家捕获常识性知识。

这篇文章先来说第一个部分, MLA(Multi-head Latent Attention)算法的原理。

阅读全文 »

通过Python传文件。

1
2
3
4
5
6
7
8
# 服务端
# Python2
python -m SimpleHTTPServer 39090
# Python3
python -m http.server 39090

# 客户端获取文件方法
wget {容器IP}:39090/filename

ModernBERT 是一个全新的模型系列,在速度和准确性两个维度上全面超越了 BERT 及其后继模型。这个新模型整合了近年来大语言模型(LLMs)研究中的数十项技术进展,并将这些创新应用到 BERT 风格的模型中。

论文地址:

论文代码:

阅读全文 »

MinHash算法和LSH(Locality Sensitive Hashing),用于快速估计两个集合的相似度。它们被广泛应用于大数据集的相似检索、推荐系统、聚类分析中,如今在大模型预训练的数据处理中也有使用到这两个算法。

阅读全文 »