通俗解释:Flash Attention FlashAttention 是一种快速且内存高效的精确注意力机制,通过 IO 感知设计利用 GPU 内存层次(HBM 和 SRAM)减少数据搬运。 FlashAttention 注意力机制 GPU内存层次 矩阵分块 softmax 内核融合 gordicaleksa 发布于 2024-11-02 21 0 0