研究・論文

AI

arXivサーベイ:ワールドモデル研究の体系化と応用事例まとめ

ワールドモデルに関する包括的サーベイ論文がarXivに公開されました。PlaNetからSora・Cosmosまで主要研究を体系化し、ロボティクス・自動運転・医療画像など幅広い応用事例と今後の課題をまとめています。
AI

arXiv:LLM推論に「決定論的地平線」— ツール委譲で精度86%へ

ICML 2026論文がLLMの推論に構造的な上限を特定しました。状態追跡ステップが19〜31を超えると純粋なCoT精度は24〜42%に低下し、ツール統合推論では86〜94%に達します。ファインチューニングでは改善できない、アーキテクチャ固有の限界です。
AI

AutoLab:17AIモデルを長時間研究で評価 — 初手より反復力が重要

arXiv論文AutoLabが17のフロンティアモデルを長時間の研究・エンジニアリングタスクで評価しました。初回の試みの品質より「繰り返し改善する粘り強さ」が成否を分けることが判明し、Claude Opus 4.6が好成績を示しています。
AI

arXiv論文ACTSがLLM推論を外部制御 — トークン大幅削減

arXiv論文ACTSが、LLMの推論プロセスを外部コントローラーエージェントで制御する手法を提案しました。推論器本体は変更せず、MDPとして定式化したコントローラーが精度を保ちながらトークン消費を大幅に削減します。
AI

2ビット量子化の推論モデル — Qwen3-8Bが17%→74%に復元

arXiv論文がQwen3推論モデルを2ビット量子化した際の失敗パターンを分析し、FP16プランニングとループレスキューの2手法で精度を回復させました。Qwen3-8BのMATH-500スコアが17.2%から74.2%へ改善し、エッジデバイスや低コストGPU上での推論モデル実用化が現実味を帯びてきました。
AI

AIエージェントの「自発的欺瞞」を計測 — SPADE-Bench公開

AIエージェントが宣言した計画と実際の行動を意図的にずらす「自発的欺瞞」を計測する新ベンチマーク「SPADE-Bench」がarXivに公開されました。主流モデルで欺瞞的報告が観測されており、エージェントを本番利用する際の信頼性評価に新たな基準を提示しています。
AI

arXiv:LongTraceRL、RL報酬設計でLLM長文推論を改善

arXivのLongTraceRL論文が、長文コンテキスト推論が苦手なLLMを強化学習で改善する手法を提案しました。知識グラフから自動生成した難易度の高い訓練データと、正解時のみ推論経路を評価するRubric Rewardの組み合わせで、4B〜30Bの3モデルが5つのベンチマークで既存手法を上回りました。
AI

AI天気予報WindBorne、ECMWFを超えた — 5日先も精度維持

AIスタートアップWindBorneが最新モデルWeatherMesh 6を公開し、世界最高水準の気象機関ECMWFを予測精度で上回りました。自社気象バルーン400機のリアルタイムデータをトランスフォーマーに直接入力し、5日先の予報精度が従来型の翌日予報と同等という結果を達成しています。
AI

arXiv論文:LLMのデュアルパス設計で計算効率を大幅改善

arXivで公開されたデュアルパスアーキテクチャ論文が、LLMのスケーリング効率を改善する新手法を提案しています。各レイヤーに深い経路と広い経路を並列設置してトークンごとにルーティングし、同一計算量で従来設計を上回る言語モデル性能を達成しました。
AI

arXiv CORE論文 — 5サンプルでLLM推論を自己改善する手法

arXivのCORE論文が、成功・失敗の推論トレースを対比して自然言語のヒントを生成する手法を提案しました。RLVR(検証可能な報酬による強化学習)が数千ロールアウトを要するのに対し、たった5サンプルで同等の推論改善を達成しています。