丰言的博客

【文献阅读】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

发表于 2025-08-04 更新于 2026-04-28 分类于算法，文献阅读 Disqus：本文字数： 1.7k 阅读时长 ≈ 6 分钟

论文地址：

https://arxiv.org/pdf/2502.11089

Native Sparse Attention(NSA)是DeepSeek-AI团队开发的框架，用以解决Transformer架构中注意力机制\(O(n^2)\)复杂度的问题。

阅读全文 »

How continuous batching enables 23x throughput in LLM inference while reducing p50 latency

发表于 2025-08-01 更新于 2026-04-28 分类于算法， continuous batching Disqus：本文字数： 535 阅读时长 ≈ 2 分钟

参考https://www.anyscale.com/blog/continuous-batching-llm-inference

阅读全文 »

git merge和git rebase的区别

发表于 2025-07-30 更新于 2026-04-28 分类于工具， Git Disqus：本文字数： 395 阅读时长 ≈ 1 分钟

参考https://blog.csdn.net/u010698107/article/details/129000177

Git版本控制中，git rebase和git merge这两个命令都可以用来集成从一个分支和另一个分支的更改。它们是两种不同的合并方法，本文将介绍它们的差异。

阅读全文 »

优化器(optimizer)介绍

发表于 2025-07-23 更新于 2026-04-28 分类于算法，学习 Disqus：本文字数： 1.6k 阅读时长 ≈ 6 分钟

介绍SGD、SGDM、Adagrad、RMSProp、Adam等优化器算法

阅读全文 »

DeepSeekMoE+MTP

发表于 2025-06-30 更新于 2026-04-28 分类于算法，文献阅读 Disqus：本文字数： 2.1k 阅读时长 ≈ 8 分钟

阅读全文 »

MCP介绍

发表于 2025-04-27 更新于 2026-04-28 分类于算法，学习 Disqus：本文字数： 277 阅读时长 ≈ 1 分钟

官方介绍：

https://www.anthropic.com/news/model-context-protocol

MCP 是一个开放协议，用于标准化应用程序向大语言模型提供上下文的方式。可以将 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 为设备连接各种外设和配件提供了标准化方式一样，MCP 为 AI 模型连接不同的数据源和工具提供了标准化方式。

阅读全文 »

PPO&GRPO

发表于 2025-03-06 更新于 2026-04-28 分类于算法，学习， AIGC Disqus：本文字数： 4.6k 阅读时长 ≈ 17 分钟

详解PPO算法和GRPO算法。

阅读全文 »

Pytorch实现AverageModel

发表于 2025-03-04 更新于 2026-04-28 分类于工具， PyTorch Disqus：本文字数： 270 阅读时长 ≈ 1 分钟

Pytorch中AveragedModel实现了随机权重平均 (SWA) 和指数移动平均 (EMA) 的平均模型。

SWA示例

在下面的示例中，swa_model是累积权重平均值的 SWA 模型。我们总共训练模型 300 个时期，并切换到 SWA 学习率计划，并开始在第 160 个时期收集参数的 SWA 平均值：

loader, optimizer, model, loss_fn = ...
swa_model = torch.optim.swa_utils.AveragedModel(model)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=300)
swa_start = 160
swa_scheduler = SWALR(optimizer, swa_lr=0.05)

for epoch in range(300):
      for input, target in loader:
          optimizer.zero_grad()
          loss_fn(model(input), target).backward()
          optimizer.step()
      if epoch > swa_start:
          swa_model.update_parameters(model)
          swa_scheduler.step()
      else:
          scheduler.step()

# Update bn statistics for the swa_model at the end
torch.optim.swa_utils.update_bn(loader, swa_model)
# Use swa_model to make predictions on test data
preds = swa_model(test_input)

EMA示例

在下面的示例中，ema_model是 EMA 模型，它累积权重的指数衰减平均值，衰减率为 0.999。我们总共训练模型 300 个时期，并立即开始收集 EMA 平均值。

loader, optimizer, model, loss_fn = ...
ema_model = torch.optim.swa_utils.AveragedModel(model, multi_avg_fn=torch.optim.swa_utils.get_ema_multi_avg_fn(0.999))

for epoch in range(300):
      for input, target in loader:
          optimizer.zero_grad()
          loss_fn(model(input), target).backward()
          optimizer.step()
          ema_model.update_parameters(model)

# Update bn statistics for the ema_model at the end
torch.optim.swa_utils.update_bn(loader, ema_model)
# Use ema_model to make predictions on test data
preds = ema_model(test_input)

【文献阅读】Better & Faster Large Language Models via Multi-token Prediction

发表于 2025-02-18 更新于 2026-04-28 分类于算法，文献阅读 Disqus：本文字数： 477 阅读时长 ≈ 2 分钟

论文地址：

https://arxiv.org/pdf/2404.19737

DeepSeek-V3使用了多token预测（Multi-token Prediction, MTP）技术，今天来读一下这篇文章。

阅读全文 »

DeepSeekMoE详解

发表于 2025-02-17 更新于 2026-04-28 分类于算法，学习 Disqus：本文字数： 1.7k 阅读时长 ≈ 6 分钟

论文地址：

https://arxiv.org/pdf/2401.06066

论文代码：

https://github.com/deepseek-ai/DeepSeek-MoE

这篇文章来说DeepSeekMoE算法的原理。

阅读全文 »