git merge和git rebase的区别
参考https://blog.csdn.net/u010698107/article/details/129000177
Git版本控制中,git rebase和git merge这两个命令都可以用来集成从一个分支和另一个分支的更改。它们是两种不同的合并方法,本文将介绍它们的差异。
优化器(optimizer)介绍
介绍SGD、SGDM、Adagrad、RMSProp、Adam等优化器算法
MCP介绍
官方介绍:
MCP 是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。可以将 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 为设备连接各种外设和配件提供了标准化方式一样,MCP 为 AI 模型连接不同的数据源和工具提供了标准化方式。
Pytorch实现AverageModel
Pytorch中AveragedModel实现了随机权重平均 (SWA) 和指数移动平均 (EMA) 的平均模型。
SWA示例
在下面的示例中,swa_model是累积权重平均值的 SWA 模型。我们总共训练模型 300 个时期,并切换到 SWA 学习率计划,并开始在第 160 个时期收集参数的 SWA 平均值:
1 | loader, optimizer, model, loss_fn = ... |
EMA示例
在下面的示例中,ema_model是 EMA 模型,它累积权重的指数衰减平均值,衰减率为 0.999。我们总共训练模型 300 个时期,并立即开始收集 EMA 平均值。
1 | loader, optimizer, model, loss_fn = ... |
【文献阅读】Better & Faster Large Language Models via Multi-token Prediction
论文地址:
DeepSeek-V3使用了多token预测(Multi-token Prediction, MTP)技术,今天来读一下这篇文章。
DeepSeekMoE详解
论文地址:
论文代码:
这篇文章来说DeepSeekMoE算法的原理。
MLA(Multi-head Latent Attention)详解
在DeepSeek的模型层面,有两个值得关注的点:
- Multi-head Latent
Attention(MLA):这个结构对传统Transformer中的MHA结构进行改进,主要目标有两个:
- 降低推理时KV Cache的存储开销;
- 缓解GQA和MQA等方法导致的模型性能损耗。
- DeepSeekMoE:这部分结构和DeepSeek-MoE 中保持一致,两个核心思想是:
- Fine-grained Expert Segmentation,即将FFN中间层隐层维度拆分成多个更小的维度;
- Shared Expert Isolation,设置共享专家捕获常识性知识。

这篇文章先来说第一个部分, MLA(Multi-head Latent Attention)算法的原理。