MLEvolve論文：LLMエージェントがML手法を自律発見

上海AI Laboratoryと東中国師範大学の研究チームが、LLM（Large Language Model、大規模言語モデル）エージェントを使って新しい機械学習アルゴリズムを自律的に発見・改善するフレームワーク「MLEvolve（arXiv:2606.06473）」を発表しました。複数のAIエージェントが互いに情報を共有しながら試行錯誤を繰り返し、ML手法の設計を自動化します。機械学習の競技プラットフォームMLE-Bench（モデル開発タスクの自動化能力を評価するベンチマーク）では、標準的な12時間のバジェットの半分にあたる6時間以内に最高水準の成績を達成しました。数学的アルゴリズムの最適化タスクでは、Google DeepMindが開発したAlphaEvolveを上回る結果も示されており、AIがAIを改良するメタな研究として注目されています。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

機械学習の手法開発は長らく、研究者が仮説を立て、実験し、失敗から学ぶ反復プロセスに依存してきました。これを自動化しようとする試みはAutoML（Automated Machine Learning：ハイパーパラメータ最適化やアーキテクチャ探索を自動化する手法）として長い歴史を持ちますが、探索空間が広すぎて有効な解にたどり着くまでに膨大な計算資源が必要という課題がありました。

この状況を変えたのがLLMの登場です。LLMはコードを生成し、エラーメッセージを解釈し、改善案を提案できるため、AutoMLの探索エンジンとして使う研究が急速に増えています。Google DeepMindはAlphaEvolveを発表し、LLMを使って数学的アルゴリズムを進化させる手法を示しました。

しかし既存手法には三つの構造的な問題がありました。まず「枝間の情報断絶」：木構造の探索では、別の枝で得られた知見が共有されず、同じ失敗を繰り返します。次に「記憶なし探索」：蓄積した経験を次の試行に活かす仕組みがなく、毎回ゼロから始まります。そして「階層制御の欠如」：戦略レベルの判断とコード生成レベルの実装が混在し、長時間の反復で不安定になります。MLEvolveはこの三問題を直接解決することを設計目標に据えています。

技術/ビジネス面

Laboratory science automation engineering research — Photo by ThisisEngineering on Unsplash

MLEvolveの第一の核心技術は「Progressive MCGS（Monte Carlo Graph Search）」です。従来の木構造探索（MCTS：チェスや囲碁でよく使われる探索アルゴリズム）を拡張し、グラフ構造にした点が新しい部分です。異なる探索枝の間にリファレンスエッジ（参照辺）を引くことで、ある枝で発見した知見を別の枝の試行に活かせます。さらに探索の初期段階では広く探り、後半は有望な方向に集中して掘り下げるという段階的スケジュールを採用しています。

第二の技術は「Retrospective Memory（内省記憶）」です。タスク開始時に注入するドメイン知識ベースと、探索を進めながら動的に更新されるグローバルメモリを組み合わせています。過去の試行で何がうまくいったか・失敗したかを構造化して蓄積し、次の試行でその経験を検索・再利用できます。これにより同じ失敗を繰り返さない「学習する探索」が実現しています。

第三の技術は「Adaptive Coding Modes（適応コーディングモード）」で、戦略的な計画フェーズとコード生成フェーズを分離しています。長時間の反復では、戦略判断とコード生成を混在させると出力が不安定になる問題がありました。分離することで各フェーズの安定性が高まり、12時間を超える長時間探索でも品質を維持できます。

ベンチマーク結果としては、MLE-Benchで複数の評価指標（メダル獲得率・有効提出率）において最高水準を達成しています。標準的な12時間バジェットの半分のリソースでこの成績を出した点が、計算効率の観点でも注目されます。また、AlphaEvolveが特化している数学的アルゴリズム最適化タスクでもMLEvolveが上回る結果を示しており、ドメイン横断的な汎化性能の高さが確認されました。コードはGitHub（InternScience/MLEvolve）でオープンソース公開されています。

これからどうなるか

MLEvolveが示す最も重要な示唆は、「ML手法の発見自体をパイプラインに組み込める可能性」です。現在の多くの機械学習プロジェクトでは、モデルのアーキテクチャや学習率スケジュール、データ拡張手法の選定は研究者や機械学習エンジニアの経験に依存しています。MLEvolveのようなフレームワークが成熟すれば、特定タスクに最適化されたカスタム手法を自動生成する工程が半自動化されます。

開発者への直接的な影響としては、MLE-Benchのような標準的なMLコンペティション形式のタスクへの適用が現実的です。既存のAutoMLツール（例：AutoSklearn、Optuna）と組み合わせて実験サイクルを短縮するユースケースも考えられます。特に探索バジェットが限られたプロジェクト（クラウドGPU費用の制約がある場面など）で、少ない試行で良い手法を見つけられる可能性があります。

一方で課題もあります。MLEvolveはLLMを探索エンジンに使うため、LLM自体のAPIコストや推論遅延が探索効率に影響します。また、全く新規のドメインでは「コールドスタートの知識ベース」が薄く、初期フェーズの効率が落ちる懸念も論文内で言及されています。研究コミュニティでの再現実験と実用化事例の蓄積を待ちたいところです。

まとめ

MLEvolveは、LLMエージェントを使って機械学習手法を自律的に発見・改善するフレームワークです。枝間の情報共有、経験の蓄積、戦略と実装の分離という三つの課題を解決し、MLE-BenchでAlphaEvolveを超える結果を標準時間の半分で達成しました。コードは公開されており、ML最適化の自動化を試みたい開発者がすぐに実験できる状況にあります。

参考リンク

アイキャッチ画像: Photo by Bozhin Karaivanov on Unsplash