Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

文章信息
标题: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
作者: Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal
发布日期: 2024年4月10日
机构: Google
ArXiv编号: arXiv:2404.07143v1 [cs.CL]
摘要
该研究提出了一种高效方法,可以将基于Transformer的大型语言模型(LLMs)扩展到能够处理无限长输入,而无需增加内存和计算成本。其核心创新是一种新的注意力机制,称为Infini-attention。这种机制将压缩记忆引入传统的注意力机制,并在单个Transformer块中内置了掩蔽局部注意力和长期线性注意力机制。

研究展示了这种方法在长上下文语言建模基准测试中的有效性,包括1M序列长度的任务和8B LLMs的摘要任务。该方法引入了最小的有界内存参数,并使得LLMs能够进行高效的流式推理。

介绍
记忆是智能的基石,因为它可以实现特定上下文的有效计算。然而,基于Transformers的LLMs通常具有受限的上下文相关记忆,这是由于其注意力机制的性质所致。

具体内容
该论文探讨了一种新的注意力机制,称为Infini-attention,通过压缩记忆和改进的注意力机制,试图克服传统Transformer在处理长上下文时的局限性。这种机制的引入有望提高模型在处理长文本、复杂任务时的效率和准确性。

应用领域
这种方法对于需要处理长文本的任务,如长上下文语言建模、段落级摘要生成等,具有重要意义。它可以使LLMs更高效地处理这些任务,同时减少内存和计算资源的消耗。