注意力 - 天枰百科网

耶鲁团队揭示多头自注意力结构的上下文学习机制，证明梯度流算法的收敛性

众所周知，目前的大模型大多基于 Transformer 架构。Transformer 的核心结构是多头自注意力模型（multi-head self-attention model）。大模型的一个重要...

模型权重注意力

2024-05-04 16:53 116 阅读 #知识百科
Meta无限长文本大模型来了：参数仅7B，已开源

机器之心报道编辑：泽南、陈萍谷歌之后，Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，...

MEGALODON 注意力上下文

2024-04-18 10:54 129 阅读 #知识百科
还在卷长文本？谷歌最新论文直接把文本干到…无限长了

作者｜苗正邮箱｜miaozheng@pingwest.com当人们还在比拼上下文窗口的时候，谷歌发布了这样一篇论文《Leave No Context Behind: Efficient Infini...

模型注意力无限

2024-04-15 10:14 130 阅读 #知识百科

1