SWE-INTERACTが示すAIコーディング支援の限界：マルチターンで性能が半減

2026年6月、Mohit Raghavendraらの研究チームが新しいソフトウェアエンジニアリングベンチマーク「SWE-INTERACT」を発表しました。このベンチマークは、ユーザーが要件を最初からすべて提示するのではなく、会話の中で段階的に開示するという、現実の開発現場に近い評価手法を採用しています。結果として、Opus 4.8やGPT 5.5といったフロンティアモデル（最高水準の性能を持つ大規模言語モデル）でさえ、シングルターン（一問一答形式）では約50%のタスクを解決できるものの、マルチターン（multi-turn：複数回のやり取りを経て課題を解決する対話形式）の設定では約25%まで性能が低下することが明らかになりました。この発見は、現在のAIコーディング支援ツールが抱える構造的な課題を浮き彫りにしています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

AIによるコーディング支援の能力評価には、これまでSWE-bench（ソフトウェアエンジニアリング能力を測るベンチマーク：GitHubのissueを解決できるかを評価する指標）が広く使われてきました。SWE-benchはGitHubの実際のissueを元にしており、AIエージェントが問題の全仕様を最初から受け取った上でコードを修正・生成する能力を測定します。しかしこの形式には、現実の開発現場との大きなギャップがあります。

実際のソフトウェア開発では、エンジニアとユーザーや他のチームメンバーとの間で要件の確認や修正が繰り返し行われます。「最初から完全な仕様が与えられる」状況はむしろ例外的であり、多くの場合は会話を通じて要件を掘り起こしながら実装を進める必要があります。この現実と従来のベンチマーク評価の乖離が、研究チームが問題意識を持った出発点です。

SWE-INTERACT以前にも、SWE-marathonやDeepSWE、SWE-Atlasといった派生ベンチマークが登場していましたが、いずれも基本的にはシングルターン形式の評価にとどまっていました。SWE-INTERACTはこの流れに対し、「ユーザー主導の長期的なコーディングセッション」という新しい評価軸を持ち込んだ点で、先行研究と一線を画しています。

技術/ビジネス面

computer monitor — Photo by Krsto Jevtic on Unsplash

SWE-INTERACTの核心は「ユーザーシミュレーター」という仕組みです。このシミュレーターは最初に曖昧または不完全な指示を与え、AIエージェントが作業を進めるにつれて追加の要件を段階的に開示します。さらにエージェントのワークスペースを確認し、実装に対してピンポイントのフィードバックを返します。これにより、要件が徐々に明確になりながらコードが育っていくという、現実に近い開発フローが再現されます。

評価したモデルはOpus 4.8、GPT 5.5、そして複数のオープンウェイト（公開された重みを持つ）モデルです。シングルターンのベースラインでは上位モデルが約50%のタスクを解決しましたが、SWE-INTERACT形式では同じタスクに対して約25%まで性能が落ちました。この「性能の転移率の低さ」が、研究の最も重要な発見です。

上位モデルの特徴として、曖昧な指示の段階でも初期実装を強く推し進め、要件の発見プロセスを粘り強く続け、後から判明した制約を既存のコードにうまく統合できる点が挙げられます。一方で上位モデルでさえ「過剰なエージェント的行動」「要件の忘却」「技術的ミス」といった問題が確認されました。下位モデルはさらに深刻で、曖昧な指示に混乱してタスクを途中放棄したり、同じコードを何度も作り直すループに陥ったりする傾向が見られました。研究チームはSWE-INTERACTが既存ベンチマークとは「直交した現実世界の能力軸」を測定していると結論づけています。

これからどうなるか

SWE-INTERACTの登場は、AIコーディング支援ツールの開発に新たな方向性を与えます。現在のモデルが「完全な仕様を受け取って解く」能力に特化して最適化されてきたのに対し、「要件を引き出しながら段階的に実装する」能力の強化が次の重要な課題になるでしょう。ユーザーシミュレーターを活用したトレーニングデータの拡充や、長期的な対話を通じて文脈を保持するアーキテクチャの改善が研究の焦点になると考えられます。

自分のプロダクトやコードベースでAIコーディング支援を活用している開発者にとっては、最初から詳細な仕様書を渡す使い方よりも、対話を重ねて要件を精緻化していく使い方のほうが、現時点ではモデルに大きな負荷をかけているという認識が重要です。プロンプトの設計や人間側のレビュー体制を工夫することで、このギャップを補う実践的なアプローチが求められます。CursorやGitHub Copilotなどのツールをチームで使う際も、AIへの指示を細かく分解して段階的に渡すことで、インタラクティブな設定でも精度を維持しやすくなります。

まとめ

SWE-INTERACTは、AIコーディング支援が現実の開発フローでどの程度通用するかを測る新しい評価軸を示しました。フロンティアモデルでさえマルチターンで性能が半減するという事実は、現在のツールの限界を正直に教えてくれます。開発者はこの知見を踏まえ、AIとの協働方法を戦略的に設計することが大切です。

参考リンク

SWE-INTERACT: Reimagining SWE Benchmarks as User-Driven Long-Horizon Coding Sessions

アイキャッチ画像: Photo by Jantine Doornbos on Unsplash