研究・論文

SWE-INTERACTが示すAIコーディング支援の限界：マルチターンで性能が半減

新ベンチマーク「SWE-INTERACT」により、フロンティアモデルは要件が段階的に開示されるマルチターン設定で性能が約50%から25%に低下することが判明しました。AIコーディング支援の現実的な限界を明らかにした研究です。

2026.07.01

AI研究・論文

InternScienceが公開したAgents-A1は、35BパラメータのMoEモデルでありながら、推論トークン長を4万5千まで拡張するエージェント設計と多段階蒸留によって兆パラメータ級モデルと同等の性能を達成しました。

2026.07.01

AI研究・論文

マルチエージェントAIシステムの実行中の攻撃（メモリポイズニング・ツール改ざんなど）を動的に防ぐ「ANIS」フレームワークがarXivで公開されました。訓練時のアライメントを補完する6層の免疫タワー設計で、エージェント開発のセキュリティ設計に直接活用できます。

2026.06.30

AI研究・論文

正解ラベルなしのスコアベースタスクでLLMを強化学習するRiVERフレームワークがarXivで公開されました。AtCoderで訓練したモデルがALE評価で8〜9%向上し、さらに正解が必要な他ベンチマークでも2〜3.5%の性能改善が転移しています。

2026.06.29

AI研究・論文

複数LLMエージェントの反復ループで、埋め込みのコサイン距離を使い収束点を自動検出して早期停止する手法がarXivで公開されました。HotpotQAの実験でトークン消費を38%削減しており、オープンソース実装でRAGやコード生成パイプラインへの応用が可能です。

2026.06.29

AI研究・論文

視覚トークンの77.8%を削除しながらMLLM性能を100%維持するTOPS手法が公開されました。訓練不要・モデル非依存の設計で7モデル14ベンチマークで検証されており、マルチモーダルAIの推論コスト削減に直接活用できます。

2026.06.28

AI研究・論文

7BパラメータのモデルがWebブラウザのGUI操作で32BモデルをPEEUフレームワークにより上回りました。ACL 2026採択のこの手法は自律的な環境探索で経験を生成し、ローカル実行による低コスト・プライバシー配慮の自動化エージェントを可能にします。

2026.06.28

AI研究・論文

LLMの安全ガードにChain-of-Thought推論は不要だと示すLeanGuardが公開されました。395Mパラメータの軽量エンコーダが大型推論モデルと同等のF1スコア82.90を達成し、推論コストを約100分の1に削減してエッジデバイスへの展開も可能にします。

2026.06.27

AI研究・論文

Nvidiaの研究チームが、拡散言語モデルと自己回帰モデルを2塔構成で組み合わせるNemotron-TwoTowerを発表しました。品質は自己回帰ベースラインの98.7%を維持しながら生成スループットが2.42倍に向上し、コードとモデル重みはオープンソースで公開されています。

2026.06.27

AI研究・論文

67の最前線LLMを横断した研究が、複数モデルを組み合わせても改善できない「共同失敗の天井」を実証しました。精度の上限は全モデルの同時失敗率βで決まり、モデル数を増やすだけでは解消しないことが示されています。

2026.06.27

AI研究・論文