丰言的博客

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

MinHash算法和LSH(Locality Sensitive Hashing),用于快速估计两个集合的相似度。它们被广泛应用于大数据集的相似检索、推荐系统、聚类分析中,如今在大模型预训练的数据处理中也有使用到这两个算法。

阅读全文 »