AI | ページ 6 | ぽこの日常

HyperTool論文：ツール呼び出し並列化でエージェント精度2倍に

arXiv論文（2606.13663）が提案するHyperToolは、エージェントが複数ツールを1ブロックで並列実行できるインターフェースです。MCP-Universeベンチマークでは同一モデルの精度が2倍以上になり、ツール実行設計の重要性を実証しています。

2026.06.15

AI開発者ツール

arXiv：LLM推論の55%は不要 — コミットメント境界を初発見

arXiv論文（2606.13603）が、大規模言語モデルの推論チェーン内に「コミットメント境界」を発見しました。この境界以降の生成は最大55%が回答に影響しない副産物で、early exitで推論コストを大幅削減できる可能性があります。

2026.06.15

AI研究・論文

arXiv：人間もLLMも推論はパターンマッチング — 25モデルで実証

arXiv論文（2606.13607）が25種のLLMと人間の被験者を比較し、日常的な因果推論において両者が同じエラーパターンを示すことを実証しました。「LLMはパターンマッチング、人間は真の推論」という通説を問い直す知見で、推論ベンチマーク設計にも影響します。

2026.06.14

AI研究・論文

Meta、AI部門6500人が反乱 — 強制異動・監視で士気崩壊

MetaのApplied AIチームに強制異動させられた約6500人のエンジニアが「グラーグ」と批判しています。訓練データ生成業務への不満と行動監視への抵抗から1600人以上が請願書に署名しており、AI内製化急加速のひずみが表面化しています。

2026.06.14

AI社会・倫理

Kimi K2.7-Code公開 — 1兆パラメータOSSがMCPMarkでOpus超え

Moonshot AIが1兆パラメータのコーディング特化OSSモデル「Kimi K2.7-Code」を公開しました。MCPMark VerifiedでClaude Opus 4.8（76.4%）を上回る81.1%を記録し、Modified MITライセンスでHugging FaceとAPIから利用できます。

2026.06.14

AI開発者ツール

米政府、Claude Fable 5停止命令 — 安全訴求が規制を招いた皮肉

米政府が輸出規制とジェイルブレーク懸念を理由にAnthropicへClaude Fable 5とMythos 5の停止を命じました。安全性を前面に出したマーケティング戦略が規制当局の注目を招いた可能性があり、業界全体のモデル展開基準に波及する恐れがあります。

2026.06.14

AI社会・倫理

OpenAI、複数の州司法長官が調査 — 広告・健康データが争点

複数の米州司法長官がOpenAIにサブポエナを発行し、広告手法・健康データ管理・未成年者対応・モデルの過剰同調性の4領域を調査しています。著作権訴訟を抱える同社への規制圧力がさらに強まる局面で、AI業界全体に波及する可能性があります。

2026.06.14

AIビジネス・規制

RA-RFT: 検索で「類推」を教えLLMのAIMEスコアを改善

arXiv論文RA-RFT（2606.13680）が、意味的類似度ではなく推論有用性で事例を検索する手法と強化学習を組み合わせ、AIME 2025でGRPO比+7.1ポイントを達成しました。推論認識型検索は既存の強化学習改善と直交する新しい精度向上軸として注目されます。

2026.06.13

AI研究・論文

System 0理論: AIが人間の思考を「植民地化」する仕組み

arXiv論文（2606.13658）がAI介在型の認知を説明する「System 0」概念を提唱しました。AIが思考の前段階で問いの枠組みを形成し、外部利益を思考構造へ埋め込む「認知の植民地化」は、AIツール設計・規制・倫理の各層で新たな議論を呼ぶ可能性があります。

2026.06.13

AI社会・倫理

EurekAgent: 科学発見を自動化するエージェント環境設計

arXiv論文EurekAgent（2606.13662）が「エージェントの環境設計こそが科学的発見のボトルネック」と主張しました。権限・アーティファクト・予算・人間参加の4軸フレームワークを提案し、$11未満のAPIコストで数学の未解決問題に新記録を達成しています。

2026.06.13

AI開発者ツール