丰言的博客

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

Mistral 7B

论文地址:

论文代码:

论文主页:

Mixtral 8x7B

论文地址:

论文代码:

论文主页:

阅读全文 »

对日常Git的使用进行归纳和总结。

阅读全文 »

MQA(Multi Query Attention)和GQA(Grouped Query Attention)是在Attention上加速大模型计算的tricks,可以缩短模型训练周期和加快推理速度。

论文地址:

参考:
https://mp.weixin.qq.com/s/_4OxoRLxhOcjGf0Q4Tvp2Q

阅读全文 »