AI

EvoArena論文:動的環境でLLMエージェントメモリを進化

EvoArena(arXiv:2606.13681)は変化する環境でLLMエージェントを評価するベンチマーク群で、既存エージェントの平均精度が39.6%にとどまることを明らかにしました。パッチベースのEvoMemメモリはGAIAで+6.1%を達成し、動的環境対応の設計指針を提供しています。
AI

arXiv:Operadic手法でLLM推論誤りをラベル不要検出

arXiv論文(2606.13649)がオペラッド理論を応用した「Operadic Consistency」でLLMの構成的推論失敗をラベルなしで検出する手法を提案しました。12モデルで精度相関0.86以上を実証し、本番環境での信頼性フィルタリングや評価自動化に道を開きます。
AI

中国、Manus買収解消を命令 — AI M&A規制が新段階に

中国当局(NDRC)が2025年12月に成立したMetaによる中国系AIスタートアップManusの約20億ドル買収を国家安全保障を理由に解消命令しました。成立済みM&Aへの外国当局介入という初の事例で、シンガポール移転でも規制を回避できなかった事実が国際AI投資に波及します。
AI

HyperTool論文:ツール呼び出し並列化でエージェント精度2倍に

arXiv論文(2606.13663)が提案するHyperToolは、エージェントが複数ツールを1ブロックで並列実行できるインターフェースです。MCP-Universeベンチマークでは同一モデルの精度が2倍以上になり、ツール実行設計の重要性を実証しています。
AI

arXiv:LLM推論の55%は不要 — コミットメント境界を初発見

arXiv論文(2606.13603)が、大規模言語モデルの推論チェーン内に「コミットメント境界」を発見しました。この境界以降の生成は最大55%が回答に影響しない副産物で、early exitで推論コストを大幅削減できる可能性があります。
SQL

MySQLのJSON型入門:JSON_EXTRACTとパス記法

MySQLのJSON型カラムの使い方を実例で解説します。JSON_EXTRACTによる値取得と$パス記法、->/->>演算子の違い、JSON_SETでの部分更新、JSON_TABLEでの配列行展開まで。MySQL 8.0対応。
AI

arXiv:人間もLLMも推論はパターンマッチング — 25モデルで実証

arXiv論文(2606.13607)が25種のLLMと人間の被験者を比較し、日常的な因果推論において両者が同じエラーパターンを示すことを実証しました。「LLMはパターンマッチング、人間は真の推論」という通説を問い直す知見で、推論ベンチマーク設計にも影響します。
AI

Meta、AI部門6500人が反乱 — 強制異動・監視で士気崩壊

MetaのApplied AIチームに強制異動させられた約6500人のエンジニアが「グラーグ」と批判しています。訓練データ生成業務への不満と行動監視への抵抗から1600人以上が請願書に署名しており、AI内製化急加速のひずみが表面化しています。
AI

Kimi K2.7-Code公開 — 1兆パラメータOSSがMCPMarkでOpus超え

Moonshot AIが1兆パラメータのコーディング特化OSSモデル「Kimi K2.7-Code」を公開しました。MCPMark VerifiedでClaude Opus 4.8(76.4%)を上回る81.1%を記録し、Modified MITライセンスでHugging FaceとAPIから利用できます。
AI

米政府、Claude Fable 5停止命令 — 安全訴求が規制を招いた皮肉

米政府が輸出規制とジェイルブレーク懸念を理由にAnthropicへClaude Fable 5とMythos 5の停止を命じました。安全性を前面に出したマーケティング戦略が規制当局の注目を招いた可能性があり、業界全体のモデル展開基準に波及する恐れがあります。