研究・論文

AI

LLM推論チェーンを58%短縮する「選択的潜在思考」— 精度低下は2.8%に抑制

arXivに公開された「Selective Latent Thinking」は、LLM推論チェーンを58.4%短縮しながら明示的CoTとの精度差を2.8%に抑える手法です。潜在推論ベースラインより22.7%高い精度を達成しており、推論モデルのAPIコスト削減に直接関わる研究として注目されます。
AI

ツール使用がLLMを劣化させる — arXiv論文が「ツール税」を定量化

arXivに公開された論文が、LLMエージェントのツール使用が「ツール税」と呼ぶプロトコルオーバーヘッドを生み、ノイズ環境下ではツールなしのCoTより最大33ポイント正答率が低下することを示しました。エラーの70〜80%がプロトコル起因という分析は、エージェント設計の前提を問い直す結果です。
AI

LLMの地政学バイアス、原因はデータでなくポストトレーニング

7ペアのオープンウェイトLLMを比較した研究が、地政学バイアスの主因がポストトレーニング(モデル調整フェーズ)にあることを示しました。7社中6社で開発元国を優遇する偏りが確認され、Alibaba Qwen 2.5では約18倍のバイアス変化が起きていました。
AI

LLMが知識を持っていても幻覚する理由 — arXiv論文が新解明

arXivに公開された論文によると、LLMの幻覚(ハルシネーション)の16〜47%は、モデルがすでに正しい答えの確率を持っているにもかかわらず発生します。問題は知識の欠如ではなく、確率質量が複数の候補に分散する「コミットメント失敗」にあることが示されました。
AI

DeepMind Co-Scientist — 多エージェントAIが科学仮説を自動生成・検証

Google DeepMindが科学仮説の生成・討論・洗練を多エージェントで自動化する「Co-Scientist」を公開しました。肝臓線維症の薬候補が実験で91%の抑制効果を示すなど6分野で成果があり、研究者向けにlabs.google/scienceで登録受付中です。
AI

MOSS公開 — AIエージェントが自分のソースコードを書き換えて自律進化

arXivに公開されたMOSSは、AIエージェントがプロンプトや設定ファイルではなく自身のソースコードを自律的に書き換えて性能を改善するフレームワークです。OpenClawベンチマークで平均スコアが0.25から0.61に向上し、ルーティングロジックなどの構造的課題を人間介入なしで修正できます。
AI

OpenAIが80年未解決のエルデシュ予想を反証 — 数学者3名が検証

OpenAIの汎用推論AIが、1946年にポール・エルデシュが提起した離散幾何学の未解決予想を反証しました。著名数学者3名が事前に検証し、AIが独立して著名な未解決問題を解いたと認定した初の事例と位置づけられています。
AI

Toto 2.0公開 — 時系列予測がスケーリング時代へ、5モデルをOSS公開

arXiv論文Toto 2.0が、時系列予測においてもモデルサイズに比例して精度が向上するスケーリング則の成立を実証しました。4Mから25億パラメータの5モデルをApache 2.0でOSS公開しており、BOOM・GIFT-Eval・TIMEの3ベンチマーク全てで最高スコアを達成しています。
AI

LLMの幻覚は予測可能 — モデルサイズとデータ頻度で決まる

LLMが誤った情報を生成する「幻覚」がランダム現象ではなく、モデルのパラメータ数と学習データ内のトピック出現頻度の組み合わせで分散の60〜94%を説明できるとするarXiv論文が公開されました。幻覚の発生パターンが予測可能になれば、RAG設計やモデル選定の根拠がより明確になります。
AI

マルチエージェントAI、人間チームを創造性で上回る — arXiv研究

複数のLLMエージェントが協調する「マルチエージェントAIシステム」が、6つの創造的タスクで人間チームをCohen's d=1.50で上回ったとするarXiv論文が公開されました。アイデアの新規性が主な要因で、議論の構造設計がAIの創造性を26.8%説明することも示されています。