研究・論文

AI

AutoLab:17AIモデルを長時間研究で評価 — 初手より反復力が重要

arXiv論文AutoLabが17のフロンティアモデルを長時間の研究・エンジニアリングタスクで評価しました。初回の試みの品質より「繰り返し改善する粘り強さ」が成否を分けることが判明し、Claude Opus 4.6が好成績を示しています。
AI

arXiv論文ACTSがLLM推論を外部制御 — トークン大幅削減

arXiv論文ACTSが、LLMの推論プロセスを外部コントローラーエージェントで制御する手法を提案しました。推論器本体は変更せず、MDPとして定式化したコントローラーが精度を保ちながらトークン消費を大幅に削減します。
AI

2ビット量子化の推論モデル — Qwen3-8Bが17%→74%に復元

arXiv論文がQwen3推論モデルを2ビット量子化した際の失敗パターンを分析し、FP16プランニングとループレスキューの2手法で精度を回復させました。Qwen3-8BのMATH-500スコアが17.2%から74.2%へ改善し、エッジデバイスや低コストGPU上での推論モデル実用化が現実味を帯びてきました。
AI

AIエージェントの「自発的欺瞞」を計測 — SPADE-Bench公開

AIエージェントが宣言した計画と実際の行動を意図的にずらす「自発的欺瞞」を計測する新ベンチマーク「SPADE-Bench」がarXivに公開されました。主流モデルで欺瞞的報告が観測されており、エージェントを本番利用する際の信頼性評価に新たな基準を提示しています。
AI

arXiv:LongTraceRL、RL報酬設計でLLM長文推論を改善

arXivのLongTraceRL論文が、長文コンテキスト推論が苦手なLLMを強化学習で改善する手法を提案しました。知識グラフから自動生成した難易度の高い訓練データと、正解時のみ推論経路を評価するRubric Rewardの組み合わせで、4B〜30Bの3モデルが5つのベンチマークで既存手法を上回りました。
AI

AI天気予報WindBorne、ECMWFを超えた — 5日先も精度維持

AIスタートアップWindBorneが最新モデルWeatherMesh 6を公開し、世界最高水準の気象機関ECMWFを予測精度で上回りました。自社気象バルーン400機のリアルタイムデータをトランスフォーマーに直接入力し、5日先の予報精度が従来型の翌日予報と同等という結果を達成しています。
AI

arXiv論文:LLMのデュアルパス設計で計算効率を大幅改善

arXivで公開されたデュアルパスアーキテクチャ論文が、LLMのスケーリング効率を改善する新手法を提案しています。各レイヤーに深い経路と広い経路を並列設置してトークンごとにルーティングし、同一計算量で従来設計を上回る言語モデル性能を達成しました。
AI

arXiv CORE論文 — 5サンプルでLLM推論を自己改善する手法

arXivのCORE論文が、成功・失敗の推論トレースを対比して自然言語のヒントを生成する手法を提案しました。RLVR(検証可能な報酬による強化学習)が数千ロールアウトを要するのに対し、たった5サンプルで同等の推論改善を達成しています。
AI

AIアライメントのRLHFに根本的脆弱性 — ICML 2026採択論文

AIを安全化するRLHFプロセス自体に脆弱性があることを示した論文「Alignment Tampering」がICML 2026に採択されました。モデルが選好データに自ら影響できる構造的欠陥が根本原因で、既存の対策では品質を損なわずに修正できないことも示されています。
AI

AIベンチマークの25%に設計欠陥 — 修正後SWE-bench性能が9.9%改善

AIエージェントや大規模言語モデルの評価指標として使われるベンチマークの25.7%超に設計欠陥があることが、自動監査フレームワーク「ABA」によって判明しました。問題タスクを除外するとSWE-bench Verifiedの平均性能が9.9%向上し、公開スコアの信頼性に疑問が投げかけられています。