注意力在做什么(直觉版)
可以把注意力理解为:模型在生成下一个 token 时,会在已输入的序列里对不同位置分配不同权重,从而决定「更关注哪些词」。这让模型能处理长距离依赖,例如代词指代、跨段引用与结构化信息对齐。
它不是「搜索引擎」,但在工程上常与检索、RAG 结合使用。
上下文窗口:不是越大越好
上下文窗口指模型一次能处理的 token 上限。窗口越大,理论上能塞进更多材料,但也会带来:
- 成本与延迟上升:计算与内存随长度增长,通常不是线性友好。
- 噪声放大:无关内容越多,模型越可能抓住错误焦点。
- 评测漂移:同一提示在不同长度下表现可能不同。
因此,「窗口」不是存储上限,而是单次推理的注意力预算。
长上下文与 RAG 的关系
RAG 的价值是先把相关材料筛出来,再用较小窗口完成推理;把整本手册硬塞进窗口,往往不如「先检索再回答」。
幻觉与注意力:长文本不等于更准
更长上下文并不会自动降低幻觉。若模型无法从输入中定位证据,它仍可能补全看似合理的信息。工程上需要:引用约束、拒答策略、以及检索与重排质量。
一个常见误解:窗口大就能替代知识管理
不少团队把“更长窗口”当作内容管理方案,直接把整份文档库拼进提示。短期看似省事,长期会出现三个问题:第一,提示成本快速上升;第二,输入噪声抬高,答案稳定性下降;第三,排错困难——你很难判断模型到底参考了哪一段。相比之下,先做检索与文档治理(标题、章节、更新时间、来源)通常更可持续。
工程实践建议
如果你的任务是问答或摘要,建议先做“信息分层”:必须上下文、可选上下文、背景上下文。必须上下文直接进入提示,可选上下文通过检索动态补充,背景上下文尽量通过系统规则固化。这样既能控制成本,也能提升可解释性。每次模型输出时让其引用证据片段 ID,是降低幻觉争议的简单做法。
小结
理解注意力与窗口,有助于你更理性地选择「堆提示」还是「改检索」还是「换模型」。把长上下文当作昂贵资源,而不是免费空间。