研究・論文

AI

Meditron FO: 監査可能な臨床LLMで最高性能を達成

arXiv論文Fully Open Meditronは、学習データ・手順・評価をすべて公開した初の臨床LLMパイプラインです。47,000件の診療ガイドラインを含む医療QAで学習し、ベースモデル比6.6ポイント向上・MedGemma超えを達成し、完全公開でも最高水準の性能を出せることを示しました。
AI

FORGE: 重みの更新なしでLLMエージェントが自己進化する新手法

arXiv論文FORGEは、LLMエージェントがモデルの重みを更新せずに自己改善する集団型プロトコルを提案しています。複数エージェントが並列で失敗を学び合う「集団ブロードキャスト」により、Reflexion比で最大72%の性能改善を達成しました。
AI

grep検索がベクトル検索を上回る — arXiv論文で検証

arXiv論文「Is Grep All You Need?」(2605.15184)が、LLMエージェントのコードベース検索でgrep検索がベクトル検索を一般に上回ることを116問のベンチマークで実証しました。検索手法よりもエージェントハーネス(ツール呼び出し設計)の違いがスコアを大きく左右することも判明しています。
AI

OpenDeepThink: 並列推論でコーディングEloが+405 — arXiv新手法

arXivに公開されたOpenDeepThinkは、複数の回答候補を並列生成しBradley-Terry集約で最良を選ぶ進化的推論手法です。Gemini 3.1 ProでCodeforces Eloが+405向上し、追加学習なしにテスト時の性能を大幅改善できることを示しました。
AI

TFGN、LLM規模の継続学習でリプレイ不要のアーキテクチャを実現

arXivに投稿されたTFGNは、タスクラベルもリプレイバッファも使わずにLLM規模の継続学習を実現するアーキテクチャです。LLaMA 3.1 8Bで後方転移-0.007・勾配分離99.59%以上を達成し、既存知識を保ちながら新ドメインの習得が可能です。
AI

DeepMind AlphaEvolve、複数分野で実績公開 — 電力網・量子・物流を自動最適化

Google DeepMindがAlphaEvolveの成果を公開しました。電力網の最適化問題の解決可能率が14%から88%へ改善し、キャッシュ置換アルゴリズムを2日で発見するなど、科学・工学・ビジネスの複数分野で具体的な成果が出ています。
AI

Video2GUI(ICML 2026)、動画から1,200万GUI操作軌跡を自動構築

ICML 2026に採択されたVideo2GUIが、インターネットのチュートリアル動画から1,200万件のGUI操作軌跡を自動構築する手法を発表しました。1,500以上のアプリをカバーするWildGUIデータセットにより、複数モデルで5〜20%の性能改善が達成されています。
AI

AIが数学オリンピアードで「金メダル」——30億パラメータの統一スケーリングが示す推論の新地平

30億パラメータのAIモデルが国際数学オリンピアード(IMO)2025と国際物理オリンピアードで金メダル水準を達成した。逆カリキュラムSFT・強化学習・テスト時スケーリングを組み合わせた手法で、巨大モデルに頼らずトップ水準の推論を実現した研究成果を解説する。