研究・論文

AI

LLMの地政学バイアス、原因はデータでなくポストトレーニング

7ペアのオープンウェイトLLMを比較した研究が、地政学バイアスの主因がポストトレーニング(モデル調整フェーズ)にあることを示しました。7社中6社で開発元国を優遇する偏りが確認され、Alibaba Qwen 2.5では約18倍のバイアス変化が起きていました。
AI

LLMが知識を持っていても幻覚する理由 — arXiv論文が新解明

arXivに公開された論文によると、LLMの幻覚(ハルシネーション)の16〜47%は、モデルがすでに正しい答えの確率を持っているにもかかわらず発生します。問題は知識の欠如ではなく、確率質量が複数の候補に分散する「コミットメント失敗」にあることが示されました。
AI

DeepMind Co-Scientist — 多エージェントAIが科学仮説を自動生成・検証

Google DeepMindが科学仮説の生成・討論・洗練を多エージェントで自動化する「Co-Scientist」を公開しました。肝臓線維症の薬候補が実験で91%の抑制効果を示すなど6分野で成果があり、研究者向けにlabs.google/scienceで登録受付中です。
AI

MOSS公開 — AIエージェントが自分のソースコードを書き換えて自律進化

arXivに公開されたMOSSは、AIエージェントがプロンプトや設定ファイルではなく自身のソースコードを自律的に書き換えて性能を改善するフレームワークです。OpenClawベンチマークで平均スコアが0.25から0.61に向上し、ルーティングロジックなどの構造的課題を人間介入なしで修正できます。
AI

OpenAIが80年未解決のエルデシュ予想を反証 — 数学者3名が検証

OpenAIの汎用推論AIが、1946年にポール・エルデシュが提起した離散幾何学の未解決予想を反証しました。著名数学者3名が事前に検証し、AIが独立して著名な未解決問題を解いたと認定した初の事例と位置づけられています。
AI

Toto 2.0公開 — 時系列予測がスケーリング時代へ、5モデルをOSS公開

arXiv論文Toto 2.0が、時系列予測においてもモデルサイズに比例して精度が向上するスケーリング則の成立を実証しました。4Mから25億パラメータの5モデルをApache 2.0でOSS公開しており、BOOM・GIFT-Eval・TIMEの3ベンチマーク全てで最高スコアを達成しています。
AI

LLMの幻覚は予測可能 — モデルサイズとデータ頻度で決まる

LLMが誤った情報を生成する「幻覚」がランダム現象ではなく、モデルのパラメータ数と学習データ内のトピック出現頻度の組み合わせで分散の60〜94%を説明できるとするarXiv論文が公開されました。幻覚の発生パターンが予測可能になれば、RAG設計やモデル選定の根拠がより明確になります。
AI

マルチエージェントAI、人間チームを創造性で上回る — arXiv研究

複数のLLMエージェントが協調する「マルチエージェントAIシステム」が、6つの創造的タスクで人間チームをCohen's d=1.50で上回ったとするarXiv論文が公開されました。アイデアの新規性が主な要因で、議論の構造設計がAIの創造性を26.8%説明することも示されています。
AI

Meditron FO: 監査可能な臨床LLMで最高性能を達成

arXiv論文Fully Open Meditronは、学習データ・手順・評価をすべて公開した初の臨床LLMパイプラインです。47,000件の診療ガイドラインを含む医療QAで学習し、ベースモデル比6.6ポイント向上・MedGemma超えを達成し、完全公開でも最高水準の性能を出せることを示しました。
AI

FORGE: 重みの更新なしでLLMエージェントが自己進化する新手法

arXiv論文FORGEは、LLMエージェントがモデルの重みを更新せずに自己改善する集団型プロトコルを提案しています。複数エージェントが並列で失敗を学び合う「集団ブロードキャスト」により、Reflexion比で最大72%の性能改善を達成しました。