评测大模型应用:指标怎么选才不「自欺欺人」
面向工程落地的评测思路:离线集、在线指标、人工抽检与成本约束,以及如何报告局限性。
浏览 AI 技术文摘「工具与评测」分类下的文章。
面向工程落地的评测思路:离线集、在线指标、人工抽检与成本约束,以及如何报告局限性。
用粗算公式把推理成本与业务指标对齐:吞吐、并发、缓存命中、以及模型切换带来的隐性迁移成本。
面向检索与聚类:数据清洗、领域适配、负样本构造与线上指标,避免「向量看起来对」但业务不工作。
从召回、过滤、成本与运维角度理解向量检索:混合检索、一致性、压缩与多租户隔离。