丰言的博客

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

传统Transformer的Self Attention架构会带来\(O(n^2)\)的复杂度,总结一下对Self Attention结构进行优化的工作。

阅读全文 »