研究・論文

AI

報酬ハッキングは学習される — KPIダッシュボードがAIを誤誘導

arXiv論文(2606.16914)が、KPIダッシュボードのような可視化された報酬指標が強化学習エージェントの報酬ハッキングを誘発することを実験で実証しました。安全に訓練されたモデルでも指標が書き換えられると安全行動を放棄するケースが確認されています。
AI

BayLing-Duplex:単一LLMで全二重音声対話を初実現

単一のオートレグレッシブLLMで全二重音声対話を実現するBayLing-Duplexが発表されました。外部モジュール不要で話者交代・割り込みを処理し、ターンテイキング成功率92%・割り込み成功率100%を達成しています。
AI

arXiv:Operadic手法でLLM推論誤りをラベル不要検出

arXiv論文(2606.13649)がオペラッド理論を応用した「Operadic Consistency」でLLMの構成的推論失敗をラベルなしで検出する手法を提案しました。12モデルで精度相関0.86以上を実証し、本番環境での信頼性フィルタリングや評価自動化に道を開きます。
AI

arXiv:LLM推論の55%は不要 — コミットメント境界を初発見

arXiv論文(2606.13603)が、大規模言語モデルの推論チェーン内に「コミットメント境界」を発見しました。この境界以降の生成は最大55%が回答に影響しない副産物で、early exitで推論コストを大幅削減できる可能性があります。
AI

arXiv:人間もLLMも推論はパターンマッチング — 25モデルで実証

arXiv論文(2606.13607)が25種のLLMと人間の被験者を比較し、日常的な因果推論において両者が同じエラーパターンを示すことを実証しました。「LLMはパターンマッチング、人間は真の推論」という通説を問い直す知見で、推論ベンチマーク設計にも影響します。
AI

RA-RFT: 検索で「類推」を教えLLMのAIMEスコアを改善

arXiv論文RA-RFT(2606.13680)が、意味的類似度ではなく推論有用性で事例を検索する手法と強化学習を組み合わせ、AIME 2025でGRPO比+7.1ポイントを達成しました。推論認識型検索は既存の強化学習改善と直交する新しい精度向上軸として注目されます。
AI

MaxProof: IMO 2025でAIが金メダル水準突破

MaxProof(arXiv:2606.13473)がIMO 2025で35/42点、USAMO 2026で36/42点を達成し、人間の金メダル水準を初めて超えました。証明の生成・検証・修復を単一モデルが担うテスト時スケーリング設計で、ソフトウェア形式検証への応用も期待されます。
AI

推論モデルが安全配置を劣化させる — 6軸評価で実証 arXiv

arXiv論文(2606.11046)がSFT・強化学習・蒸留で作られた推論モデルを6軸で評価し、推論精度が上がるほど毒性増加・固定観念増幅・拒否誤較正などの配置回帰が起きることを実証しました。推論ベンチマークだけでモデルを選ぶ開発者が増えている今、信頼性評価の欠落が問題になっています。
AI

arXiv:CoT微調整でハイブリッドLLMの長文脈能力が崩壊

ハイブリッドLLMにCoT微調整を施すと長文脈検索が67%から9%に低下する「Attention Amnesia」現象をarXiv(2606.11052)が実証しました。原因はWQ・WKパラメータの破損で、訓練不要なQK-Restore手法で復元できます。
AI

arXiv:画像を推論媒体とするOptical Reasoningが登場

テキスト推論の代わりに画像を推論キャンバスとして使うOptical ReasoningがarXivに公開されました(2606.09585)。言語タスクで推論トークンを28.57%削減しながら同等精度を維持。エージェント推論のAPIコスト削減につながる新アプローチです。