术语入门：注意力机制与「上下文窗口」到底限制什么

术语与基础 · 发布：2026/4/7 · 作者：编辑部 · 约 3 分钟阅读

Author Info

AI 技术文摘编辑部

内容研究与技术审校

负责选题策划、技术复现、事实核对与勘误维护。编辑部坚持“可复现、可核对、可追溯”的写作原则，重点覆盖 AI 工程实践、工具评测与行业动态解读。

#Prompt 工程 #RAG 检索 #模型评测 #AI 产品合规

可以把注意力理解为：模型在生成下一个 token 时，会在已输入的序列里对不同位置分配不同权重，从而决定「更关注哪些词」。这让模型能处理长距离依赖，例如代词指代、跨段引用与结构化信息对齐。

它不是「搜索引擎」，但在工程上常与检索、RAG 结合使用。

上下文窗口指模型一次能处理的 token 上限。窗口越大，理论上能塞进更多材料，但也会带来：

因此，「窗口」不是存储上限，而是单次推理的注意力预算。

RAG 的价值是先把相关材料筛出来，再用较小窗口完成推理；把整本手册硬塞进窗口，往往不如「先检索再回答」。

更长上下文并不会自动降低幻觉。若模型无法从输入中定位证据，它仍可能补全看似合理的信息。工程上需要：引用约束、拒答策略、以及检索与重排质量。

不少团队把“更长窗口”当作内容管理方案，直接把整份文档库拼进提示。短期看似省事，长期会出现三个问题：第一，提示成本快速上升；第二，输入噪声抬高，答案稳定性下降；第三，排错困难——你很难判断模型到底参考了哪一段。相比之下，先做检索与文档治理（标题、章节、更新时间、来源）通常更可持续。

如果你的任务是问答或摘要，建议先做“信息分层”：必须上下文、可选上下文、背景上下文。必须上下文直接进入提示，可选上下文通过检索动态补充，背景上下文尽量通过系统规则固化。这样既能控制成本，也能提升可解释性。每次模型输出时让其引用证据片段 ID，是降低幻觉争议的简单做法。

理解注意力与窗口，有助于你更理性地选择「堆提示」还是「改检索」还是「换模型」。把长上下文当作昂贵资源，而不是免费空间。