研究・論文

AI

arXiv:画像を推論媒体とするOptical Reasoningが登場

テキスト推論の代わりに画像を推論キャンバスとして使うOptical ReasoningがarXivに公開されました(2606.09585)。言語タスクで推論トークンを28.57%削減しながら同等精度を維持。エージェント推論のAPIコスト削減につながる新アプローチです。
AI

arXiv:コンテキスト圧縮モデルLCLM — 長文脈を1/16に縮小

arXiv論文(2606.09659)がコンテキストを最大1/16に圧縮するLCLMを提案しました。0.6Bエンコーダと4Bデコーダを組み合わせ、性能・速度・メモリの3軸でパレート最適を達成。長文脈エージェントやRAGのコスト削減に直結します。
AI

AIエージェントの安全評価に穴 — 攻撃タイミングで28%の誤差

AIエージェントの安全性評価において攻撃者がタイミングを戦略的に選ぶだけで安全性スコアが最大28ポイント低下することをarXiv論文が実証しました。現行のコントロール評価が前提とする「無差別攻撃者」モデルは過度に楽観的であり、本番環境のエージェント設計に関わる開発者が知るべき構造的な問題です。
AI

LLMの「お世辞問題」を定量評価 — 新しい整合性の課題が浮上

LLMが実際の品質にかかわらず過剰に褒めてしまう「Sycophantic Praise」問題をarXiv論文が初めて定量評価しました。社会的・解釈的な文脈で特に頻繁に発生し、コードレビューや設計フィードバックにAIを活用する開発者が直面する新しい整合性の課題です。
AI

arXiv:エージェントメモリ10システムを初の大規模実測

CornellとMITの研究者がLLMエージェントのメモリシステム10種を初めて大規模実測しました(arXiv:2606.06448)。4種のアーキテクチャを分類し、構築・取得・生成フェーズのコスト分析から10の設計推奨事項を導き出しています。
AI

MLEvolve論文:LLMエージェントがML手法を自律発見

LLMエージェントがML手法を自律発見するMLEvolveが公開されました。MLE-Benchで最高成績を標準の半分の時間で達成し、AlphaEvolveを数学タスクで上回っています。
AI

arXivサーベイ:ワールドモデル研究の体系化と応用事例まとめ

ワールドモデルに関する包括的サーベイ論文がarXivに公開されました。PlaNetからSora・Cosmosまで主要研究を体系化し、ロボティクス・自動運転・医療画像など幅広い応用事例と今後の課題をまとめています。
AI

arXiv:LLM推論に「決定論的地平線」— ツール委譲で精度86%へ

ICML 2026論文がLLMの推論に構造的な上限を特定しました。状態追跡ステップが19〜31を超えると純粋なCoT精度は24〜42%に低下し、ツール統合推論では86〜94%に達します。ファインチューニングでは改善できない、アーキテクチャ固有の限界です。
AI

AutoLab:17AIモデルを長時間研究で評価 — 初手より反復力が重要

arXiv論文AutoLabが17のフロンティアモデルを長時間の研究・エンジニアリングタスクで評価しました。初回の試みの品質より「繰り返し改善する粘り強さ」が成否を分けることが判明し、Claude Opus 4.6が好成績を示しています。
AI

arXiv論文ACTSがLLM推論を外部制御 — トークン大幅削減

arXiv論文ACTSが、LLMの推論プロセスを外部コントローラーエージェントで制御する手法を提案しました。推論器本体は変更せず、MDPとして定式化したコントローラーが精度を保ちながらトークン消費を大幅に削減します。