
一篇新发表在arXiv上的论文证明了组合多个大语言模型以提高准确率的方法存在数学上的根本性上限,这一发现对该领域最普遍的假设之一提出了挑战。
该论文由研究员Josef Chen撰写,分析了来自21家供应商的67个前沿模型,并引入了”共失败上限(β)”这一概念:即池中每个模型都给出错误答案的查询所占比例。对于每个查询选择一个模型答案的多模型系统,无论采用何种路由、投票或级联策略,准确率都无法超过1减去β。
上限真实存在且可测量
在开放式数学基准测试中,观察到的共失败率为5.2%,这意味着在所有查询中,有5.2%的查询中全部67个模型同时出错。这设定了一个硬性上限,,任何集成技术都无法使该模型池的准确率超过94.8%。
论文发现,标准统计模型严重低估了这种共失败风险。高斯Copula模型预测β仅为2.3%,约为实际观测值的2.5分之一,90%置信区间为1.7至3.4倍。
关键在于失败的多样性,而非模型数量
核心洞见:组合模型带来的提升来自于模型在不同问题上失败,而非增加更多模型。在质量对等的情况下,低相关性异构集成优于高相关性的自我混合代理方法。但即使使用多样化的模型池,除非有强大的查询级路由信号,否则组合模型很少能超越单一最佳模型。
在执行评分代码任务(k=17个模型)中,共失败率为7.9%。在GPQA-Diamond基准测试中,当问题从多项选择转换为自由回答格式时,该比率跃升至12.7%,表明答案格式可能改变上限的位置。
实际意义
论文建议将β的Clopper-Pearson置信区间作为标准的训练前诊断工具,作为任何路由器、投票或级联可能带来最大改进的证书,在训练之前即可使用。这一发现表明,许多投资于多模型编排的AI团队可能正在追逐从结构上无法实现的改进。
该预印本尚未经过同行评审。
来源:When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models (arXiv,2026年6月)

