Tokenization方法总结 发表于 2023-10-09 更新于 2025-01-10 分类于 算法 , 学习 , Tokenization Disqus: 本文字数: 2.3k 阅读时长 ≈ 8 分钟 对各种tokenization方法进行总结。 阅读全文 »
Ubuntu软件推荐 发表于 2023-10-08 更新于 2025-01-10 分类于 工具 , Ubuntu Disqus: 本文字数: 80 阅读时长 ≈ 1 分钟 Ubuntu实用软件推荐。 阅读全文 »
PPO算法原理 发表于 2023-09-15 更新于 2025-01-10 分类于 算法 , 学习 , AIGC Disqus: 本文字数: 2.5k 阅读时长 ≈ 9 分钟 参考: https://www.jianshu.com/p/9f113adc0c50 https://zhuanlan.zhihu.com/p/468828804 https://www.bilibili.com/video/av24724071/?p=4 阅读全文 »
文本对抗生成方法 发表于 2023-09-05 更新于 2025-01-10 分类于 算法 , 学习 Disqus: 本文字数: 1.8k 阅读时长 ≈ 7 分钟 总结一下文本对抗生成的方法。 阅读全文 »
Sparse Attention浅析 发表于 2023-08-28 更新于 2025-01-10 分类于 算法 , 学习 , AIGC Disqus: 本文字数: 3.2k 阅读时长 ≈ 12 分钟 传统Transformer的Self Attention架构会带来\(O(n^2)\)的复杂度,总结一下对Self Attention结构进行优化的工作。 阅读全文 »
【文献阅读】Big Bird: Transformers for Longer Sequences 发表于 2023-08-23 更新于 2025-01-10 分类于 算法 , 文献阅读 Disqus: 本文字数: 494 阅读时长 ≈ 2 分钟 机构:Google Research 论文地址: https://arxiv.org/pdf/2007.14062.pdf 阅读全文 »
【文献阅读】Longformer: The Long-Document Transformer 发表于 2023-08-23 更新于 2025-01-10 分类于 算法 , 文献阅读 Disqus: 本文字数: 686 阅读时长 ≈ 2 分钟 论文地址: https://arxiv.org/pdf/2004.05150.pdf 论文代码: https://github.com/allenai/longformer 阅读全文 »
【文献阅读】Generating Long Sequences with Sparse Transformers 发表于 2023-08-22 更新于 2025-01-10 分类于 算法 , 文献阅读 Disqus: 本文字数: 1.8k 阅读时长 ≈ 6 分钟 机构:OpenAI 论文地址: https://arxiv.org/pdf/1904.10509.pdf 阅读全文 »
提示工程指南 发表于 2023-08-11 更新于 2025-01-10 分类于 算法 , 学习 Disqus: 本文字数: 15k 阅读时长 ≈ 56 分钟 原文链接:https://www.promptingguide.ai/zh 阅读全文 »
【文献阅读】RoFormer: Enhanced Transformer with Rotary Position Embedding 发表于 2023-06-28 更新于 2025-01-10 分类于 算法 , 文献阅读 Disqus: 本文字数: 846 阅读时长 ≈ 3 分钟 论文地址: https://arxiv.org/abs/2104.09864v4 论文代码: https://huggingface.co/docs/transformers/model_doc/roformer https://github.com/ZhuiyiTechnology/roformer 阅读全文 »