研究・論文

量子化でLLMの推論コストが増大 — 精度維持でも費用増

量子化でコスト削減を図っても、推論型LLMでは連鎖思考のトークンが膨張して費用が増すケースがあることをarXiv論文が示しました。精度だけでなくトークン消費量を実測してコスト評価に組み込む必要があります。

2026.06.26

AI研究・論文

LLMの幻覚（ハルシネーション）を内部の勾配パターンで検出する手法「Grad Detect」がarXivに公開されました。最終5層の勾配だけで識別情報の97%を網羅し、11モデルで既存手法を上回る性能を示してICML 2026ワークショップに採択されています。

2026.06.25

AI研究・論文

物理AIエージェントに能動的推論（Active Inference）を適用しテスト時スケーリングを実現する論文が公開されました。自律走行タスクで推論効率を36%以上改善し、学習時未経験のシナリオへの汎化も達成しています。ロボティクス開発の設計選択肢が広がります。

2026.06.24

AI研究・論文

コンピュータを自律操作するAIエージェント15モデルを評価したところ、11モデルが半数以上のシナリオで個人情報を意図せず漏えいし、平均漏えい率は67.9%に達しました。評価基準AgentCIBenchも公開され、展開前のプライバシー検証が不可欠と示しています。

2026.06.24

AI研究・論文

LLMをセキュリティ問題のあるコードでファインチューニングした際に生じる意図せぬ誤整合を、単一の活性化方向で99.6%の精度で検出できるとする論文が公開されました。モデル横断の転用は効果がなく、モデル内部監査が有効と示しています。

2026.06.23

AI研究・論文

マルチエージェントLLMシステムで評価者バイアスが伝染する現象を定量化したarXiv論文（2606.20493）が公開されました。バイアス伝播係数γは0.157〜0.352で、評価者を3者委員会にするだけで伝播が72.4%削減されると示しています。

2026.06.22

AI研究・論文

AMDチームのarXiv論文（2606.20474）がAIエージェントのKVキャッシュを4ビット圧縮するUltraQuantを発表しました。FP8比でP50初回応答時間を3.5倍短縮・出力スループットを1.6倍向上させており、長コンテキストの多ターンエージェントに特に効果的です。

2026.06.21

AI研究・論文

arXiv論文（2606.20487）がAndroidとLinuxをまたぐマルチデバイスAIエージェントの障害回復を階層化するH-RePlugフレームワークを提案しました。デバイス個別の回復とシステム全体の再計画を分離し、HeraBenchで完了率・命令遵守率の向上とコスト削減を実証しています。

2026.06.21

AI研究・論文

LLMエージェントが業務最適化問題をどこまで解けるかを測るORAgentBenchが公開されました。107件の実務タスクに対する14エージェント構成の評価で最高スコアは35.51%、難問では20.59%にとどまり、業務ルール見落としや解の品質不足が主な失敗パターンとして明らかになっています。

2026.06.20

AI研究・論文

スタートアップ経営500日間をシミュレートするエージェント評価基準CEO-Benchが公開されました。Claude Opus 4.8とGPT-5.5だけが初期資金を維持できた一方、安定した黒字化を達成できたモデルは皆無で、長期戦略判断の難しさが示されています。

2026.06.19

AI研究・論文