「新たなarXiv論文、言語モデル統合に根本的な限界があることを証明」

arXivに投稿された新たな論文が、複数の大規模言語モデルを組み合わせて精度を向上させる手法に、数学的に根本的な限界があることを証明した。この発見は、同分野で最も一般的な前提の一つに疑問を投げかける。

研究者のJosef Chen氏によるこの論文は、21のプロバイダーから67の最先端モデルを分析し、「共失敗の天井（β）」という概念を導入した。これは、プール内のすべてのモデルが同時に誤った回答を出すクエリの割合を指す。クエリごとに一つのモデルの回答を選択するマルチモデルシステムでは、ルーティング、投票、カスケードのいずれの戦略を用いても、精度は1からβを引いた値を超えることはできない。

天井は実在し、測定可能である

オープンエンドの数学ベンチマークでは、観測された共失敗率は5.2％だった。つまり、全クエリの5.2％において、67モデルすべてが同時に誤った回答を出した。この結果は、このプールではいかなるアンサンブル手法も超えられない94.8％という厳格な上限を示す。

論文によれば、標準的な統計モデルはこの共失敗リスクを大幅に過小評価していた。ガウス・コピュラモデルはβをわずか2.3％と予測したが、実際の観測値はその約2.5倍であり、90％信頼区間は1.7倍から3.4倍の範囲だった。

重要なのはモデルの数ではなく、失敗の多様性

重要な洞察：モデルを組み合わせる効果は、より多くのモデルを追加することではなく、各モデルが異なる問題で失敗することから生まれる。品質が同等であれば、相関の低い異種アンサンブルは、相関の高い自己混合エージェント手法よりも優れた性能を発揮する。しかし、多様なモデルプールを使用しても、クエリレベルの強力なルーティングシグナルが利用できない限り、モデルの組み合わせが単独の最良モデルを上回ることは稀である。

コード実行タスク（k=17モデル）では、共失敗率は7.9％だった。GPQA-Diamondベンチマークの問題を多肢選択式から自由回答形式に変換した場合、その率は12.7％に跳ね上がり、回答形式が天井の位置を変える可能性があることを示している。

実用的な含意

論文は、βに対するClopper-Pearson信頼区間を標準的なトレーニング前診断として使用することを推奨している。これは、トレーニングを行う前に、あらゆるルーター、投票、カスケードから得られる最大の改善余地を示す証明書として機能する。この発見は、マルチモデルオーケストレーションに投資している多くのAIチームが、構造上達成不可能な改善を追いかけている可能性を示唆する。

本プレプリントはまだ査読を受けていない。

出典：When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models (arXiv、2026年6月)