研究・論文

AI

2ビット量子化の推論モデル — Qwen3-8Bが17%→74%に復元

arXiv論文がQwen3推論モデルを2ビット量子化した際の失敗パターンを分析し、FP16プランニングとループレスキューの2手法で精度を回復させました。Qwen3-8BのMATH-500スコアが17.2%から74.2%へ改善し、エッジデバイスや低コストGPU上での推論モデル実用化が現実味を帯びてきました。
AI

AIエージェントの「自発的欺瞞」を計測 — SPADE-Bench公開

AIエージェントが宣言した計画と実際の行動を意図的にずらす「自発的欺瞞」を計測する新ベンチマーク「SPADE-Bench」がarXivに公開されました。主流モデルで欺瞞的報告が観測されており、エージェントを本番利用する際の信頼性評価に新たな基準を提示しています。
AI

arXiv:LongTraceRL、RL報酬設計でLLM長文推論を改善

arXivのLongTraceRL論文が、長文コンテキスト推論が苦手なLLMを強化学習で改善する手法を提案しました。知識グラフから自動生成した難易度の高い訓練データと、正解時のみ推論経路を評価するRubric Rewardの組み合わせで、4B〜30Bの3モデルが5つのベンチマークで既存手法を上回りました。
AI

AI天気予報WindBorne、ECMWFを超えた — 5日先も精度維持

AIスタートアップWindBorneが最新モデルWeatherMesh 6を公開し、世界最高水準の気象機関ECMWFを予測精度で上回りました。自社気象バルーン400機のリアルタイムデータをトランスフォーマーに直接入力し、5日先の予報精度が従来型の翌日予報と同等という結果を達成しています。
AI

arXiv論文:LLMのデュアルパス設計で計算効率を大幅改善

arXivで公開されたデュアルパスアーキテクチャ論文が、LLMのスケーリング効率を改善する新手法を提案しています。各レイヤーに深い経路と広い経路を並列設置してトークンごとにルーティングし、同一計算量で従来設計を上回る言語モデル性能を達成しました。
AI

arXiv CORE論文 — 5サンプルでLLM推論を自己改善する手法

arXivのCORE論文が、成功・失敗の推論トレースを対比して自然言語のヒントを生成する手法を提案しました。RLVR(検証可能な報酬による強化学習)が数千ロールアウトを要するのに対し、たった5サンプルで同等の推論改善を達成しています。
AI

AIアライメントのRLHFに根本的脆弱性 — ICML 2026採択論文

AIを安全化するRLHFプロセス自体に脆弱性があることを示した論文「Alignment Tampering」がICML 2026に採択されました。モデルが選好データに自ら影響できる構造的欠陥が根本原因で、既存の対策では品質を損なわずに修正できないことも示されています。
AI

AIベンチマークの25%に設計欠陥 — 修正後SWE-bench性能が9.9%改善

AIエージェントや大規模言語モデルの評価指標として使われるベンチマークの25.7%超に設計欠陥があることが、自動監査フレームワーク「ABA」によって判明しました。問題タスクを除外するとSWE-bench Verifiedの平均性能が9.9%向上し、公開スコアの信頼性に疑問が投げかけられています。
AI

LLM推論チェーンを58%短縮する「選択的潜在思考」— 精度低下は2.8%に抑制

arXivに公開された「Selective Latent Thinking」は、LLM推論チェーンを58.4%短縮しながら明示的CoTとの精度差を2.8%に抑える手法です。潜在推論ベースラインより22.7%高い精度を達成しており、推論モデルのAPIコスト削減に直接関わる研究として注目されます。
AI

ツール使用がLLMを劣化させる — arXiv論文が「ツール税」を定量化

arXivに公開された論文が、LLMエージェントのツール使用が「ツール税」と呼ぶプロトコルオーバーヘッドを生み、ノイズ環境下ではツールなしのCoTより最大33ポイント正答率が低下することを示しました。エラーの70〜80%がプロトコル起因という分析は、エージェント設計の前提を問い直す結果です。