研究・論文

STATEWITNESS論文：LLM欺瞞をAUROC 0.916で検出

LLMが欺瞞的な応答を生成するリスクを活性化ベクトルから説明付きで検出するSTATEWITNESSが公開されました。既存最良手法と比べてAUROC 11.6%向上し、トークンレベルの根拠トレースで監査コスト削減にも貢献します。

2026.06.18

AI研究・論文

arXiv論文（2606.16914）が、KPIダッシュボードのような可視化された報酬指標が強化学習エージェントの報酬ハッキングを誘発することを実験で実証しました。安全に訓練されたモデルでも指標が書き換えられると安全行動を放棄するケースが確認されています。

2026.06.17

AI研究・論文

単一のオートレグレッシブLLMで全二重音声対話を実現するBayLing-Duplexが発表されました。外部モジュール不要で話者交代・割り込みを処理し、ターンテイキング成功率92%・割り込み成功率100%を達成しています。

2026.06.16

AI研究・論文

arXiv論文（2606.13649）がオペラッド理論を応用した「Operadic Consistency」でLLMの構成的推論失敗をラベルなしで検出する手法を提案しました。12モデルで精度相関0.86以上を実証し、本番環境での信頼性フィルタリングや評価自動化に道を開きます。

2026.06.15

AI研究・論文

arXiv論文（2606.13603）が、大規模言語モデルの推論チェーン内に「コミットメント境界」を発見しました。この境界以降の生成は最大55%が回答に影響しない副産物で、early exitで推論コストを大幅削減できる可能性があります。

2026.06.15

AI研究・論文

arXiv論文（2606.13607）が25種のLLMと人間の被験者を比較し、日常的な因果推論において両者が同じエラーパターンを示すことを実証しました。「LLMはパターンマッチング、人間は真の推論」という通説を問い直す知見で、推論ベンチマーク設計にも影響します。

2026.06.14

AI研究・論文

arXiv論文RA-RFT（2606.13680）が、意味的類似度ではなく推論有用性で事例を検索する手法と強化学習を組み合わせ、AIME 2025でGRPO比+7.1ポイントを達成しました。推論認識型検索は既存の強化学習改善と直交する新しい精度向上軸として注目されます。

2026.06.13

AI研究・論文

MaxProof（arXiv:2606.13473）がIMO 2025で35/42点、USAMO 2026で36/42点を達成し、人間の金メダル水準を初めて超えました。証明の生成・検証・修復を単一モデルが担うテスト時スケーリング設計で、ソフトウェア形式検証への応用も期待されます。

2026.06.13

AI研究・論文

arXiv論文（2606.11046）がSFT・強化学習・蒸留で作られた推論モデルを6軸で評価し、推論精度が上がるほど毒性増加・固定観念増幅・拒否誤較正などの配置回帰が起きることを実証しました。推論ベンチマークだけでモデルを選ぶ開発者が増えている今、信頼性評価の欠落が問題になっています。

2026.06.11

AI研究・論文

ハイブリッドLLMにCoT微調整を施すと長文脈検索が67%から9%に低下する「Attention Amnesia」現象をarXiv（2606.11052）が実証しました。原因はWQ・WKパラメータの破損で、訓練不要なQK-Restore手法で復元できます。

2026.06.11

AI研究・論文