丰言的博客

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

对日常Pytorch的使用进行归纳和总结。

阅读全文 »

ModernBERT 是一个全新的模型系列,在速度和准确性两个维度上全面超越了 BERT 及其后继模型。这个新模型整合了近年来大语言模型(LLMs)研究中的数十项技术进展,并将这些创新应用到 BERT 风格的模型中。

阅读全文 »

MinHash算法和LSH(Locality Sensitive Hashing),用于快速估计两个集合的相似度。它们被广泛应用于大数据集的相似检索、推荐系统、聚类分析中,如今在大模型预训练的数据处理中也有使用到这两个算法。

阅读全文 »