丰言的博客

【文献阅读】Transformer: Attention Is All You Need

发表于 2023-03-06 更新于 2025-08-06 分类于算法，文献阅读 Disqus：本文字数： 2.4k 阅读时长 ≈ 9 分钟

机构：Google Brain
论文地址：

https://arxiv.org/abs/1706.03762

论文代码：

https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/transformer.py

阅读全文 »

NLP中的自监督任务

发表于 2023-03-01 更新于 2025-08-06 分类于算法，学习 Disqus：本文字数： 824 阅读时长 ≈ 3 分钟

在这篇文章中，我们将介绍一下NLP中经常使用的自监督任务。文章将重点介绍任务的构建思路，模型的具体实现在这里不再详细展开。

阅读全文 »

Spring Boot使用教程

发表于 2023-02-28 更新于 2025-08-06 分类于工程， Spring Boot Disqus：本文字数： 25k 阅读时长 ≈ 1:31

Spring Boot让我们的Spring应用变的更轻量化。我们不必像以前那样繁琐的构建项目、打包应用、部署到Tomcat等应用服务器中来运行我们的业务服务。通过Spring Boot实现的服务，只需要依靠一个Java类，把它打包成jar，并通过java -jar命令就可以运行起来。这一切相较于传统Spring应用来说，已经变得非常的轻便、简单。

总结一下Spring Boot的主要优点：

使所有Spring开发者更快的入门
开箱即用，提供各种默认配置来简化项目配置
内嵌式容器简化Web项目
没有冗余代码生成和XML配置的要求

阅读全文 »

【文献阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

发表于 2023-02-27 更新于 2025-08-06 分类于算法，文献阅读 Disqus：本文字数： 2.9k 阅读时长 ≈ 11 分钟

机构：Google
论文地址：

https://arxiv.org/abs/1810.04805v2

论文代码：

https://github.com/google-research/bert

阅读全文 »

【文献阅读】SimCLR: A Simple Framework for Contrastive Learning of Visual Representations

发表于 2023-02-27 更新于 2025-08-06 分类于算法，文献阅读 Disqus：本文字数： 1.2k 阅读时长 ≈ 4 分钟

论文地址：

https://arxiv.org/abs/2002.05709

论文代码：

https://github.com/google-research/simclr

阅读全文 »

Transformer位置编码详解

发表于 2023-02-27 更新于 2025-08-06 分类于算法，学习 Disqus：本文字数： 3.4k 阅读时长 ≈ 12 分钟

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块无法捕捉到输入的位置信息，即无法区分不同位置的Token。为此，我们大体有两种选择：

将位置信息融入到输入中，这构成了绝对位置编码的一般做法
调整Attention模块，使其有能力分辨不同位置的Token，这构成了相对位置编码的一般做法。

阅读全文 »

KMP算法

发表于 2023-02-24 更新于 2025-08-06 分类于算法，学习 Disqus：本文字数： 1.2k 阅读时长 ≈ 4 分钟

转载自Jake Boxer的博客。

阅读全文 »

Markdown语法

发表于 2023-02-23 更新于 2025-08-06 分类于博客， Markdown Disqus：本文字数： 1.2k 阅读时长 ≈ 4 分钟

Markdown语法的记录，方便以后使用。

阅读全文 »

BPE算法详解

发表于 2023-02-21 更新于 2025-08-06 分类于算法，学习， Tokenization Disqus：本文字数： 3.3k 阅读时长 ≈ 12 分钟

在NLP模型中，输入通常是一个句子，例如"I went to New York last week"，一句话中包含很多单词(token)。传统的做法是将这些单词以空格进行分隔，例如['i', 'went', 'to', 'New', 'York', 'last', 'week']。然而这种做法存在很多问题，例如模型无法通过old, older, oldest之间的关系学到smart, smarter, smartest之间的关系。如果我们能使用将一个 token 分成多个 subtokens ，上面的问题就能很好的解决。本文将详述目前比较常用的subtokens算法——BPE（Byte-Pair Encoding）。

阅读全文 »