丰言的博客

DeepSeekMoE详解

发表于 2025-02-17 更新于 2026-07-14 分类于算法，学习 Disqus：本文字数： 3.5k 阅读时长 ≈ 3 分钟

论文地址：

论文代码：

这篇文章来说DeepSeekMoE算法的原理。

发表于 2025-02-13 更新于 2026-07-14 分类于算法，学习 Disqus：本文字数： 4.4k 阅读时长 ≈ 4 分钟

在DeepSeek的模型层面，有两个值得关注的点：

Multi-head Latent Attention（MLA）：这个结构对传统Transformer中的MHA结构进行改进，主要目标有两个：
1. 降低推理时KV Cache的存储开销；
2. 缓解GQA和MQA等方法导致的模型性能损耗。
DeepSeekMoE：这部分结构和DeepSeek-MoE 中保持一致，两个核心思想是：
1. Fine-grained Expert Segmentation，即将FFN中间层隐层维度拆分成多个更小的维度；
2. Shared Expert Isolation，设置共享专家捕获常识性知识。

这篇文章先来说第一个部分， MLA（Multi-head Latent Attention）算法的原理。

发表于 2025-01-17 更新于 2026-07-14 分类于工具，文件传输 Disqus：本文字数： 149 阅读时长 ≈ 1 分钟

通过Python传文件。

# 服务端
# Python2
python -m SimpleHTTPServer 39090
# Python3
python -m http.server 39090

# 客户端获取文件方法
wget {容器IP}:39090/filename

发表于 2025-01-08 更新于 2026-07-14 分类于算法，文献阅读 Disqus：本文字数： 2.7k 阅读时长 ≈ 2 分钟

ModernBERT 是一个全新的模型系列，在速度和准确性两个维度上全面超越了 BERT 及其后继模型。这个新模型整合了近年来大语言模型（LLMs）研究中的数十项技术进展，并将这些创新应用到 BERT 风格的模型中。

论文地址：

论文代码：

发表于 2024-12-03 更新于 2026-07-14 分类于算法，学习， AIGC Disqus：本文字数： 12k 阅读时长 ≈ 11 分钟

介绍蒙特卡洛树搜索算法。

发表于 2024-11-22 更新于 2026-07-14 分类于算法，文献阅读， AIGC Disqus：本文字数： 2.8k 阅读时长 ≈ 3 分钟

论文地址：

发表于 2024-10-18 更新于 2026-07-14 分类于算法，学习， AIGC Disqus：本文字数： 3.5k 阅读时长 ≈ 3 分钟

对OpenAI o1可能用到的技术进行整理。

发表于 2024-08-12 更新于 2026-07-14 分类于算法，学习 Disqus：本文字数： 3.2k 阅读时长 ≈ 3 分钟

MinHash算法和LSH（Locality Sensitive Hashing），用于快速估计两个集合的相似度。它们被广泛应用于大数据集的相似检索、推荐系统、聚类分析中，如今在大模型预训练的数据处理中也有使用到这两个算法。

发表于 2024-07-23 更新于 2026-07-14 分类于工具， Git Disqus：本文字数： 442 阅读时长 ≈ 1 分钟

如何清理过大的Git仓库。

发表于 2024-07-19 更新于 2026-07-14 分类于工程， Spring Boot Disqus：本文字数： 703 阅读时长 ≈ 1 分钟

介绍@Resource的配置。