開発者ツール

AI

TerminalWorld公開、AIのCLI達成率62.5%

実際のターミナル操作録画80,870件から自動生成したベンチマーク「TerminalWorld」が公開されました。6種のエージェント構成と8つのAIモデルをテストしたところ、最高達成率は62.5%にとどまり、現行AIエージェントが実務ターミナルタスクにまだ苦戦していることが示されました。
AI

Stability Audio 3.0公開 — 6分超の楽曲生成と3モデルをOSS公開

Stability AIが4モデル構成の音楽・効果音生成モデルStability Audio 3.0を公開しました。最大2.7Bパラメータのlargeモデルは6分20秒の楽曲生成に対応し、小型3モデルはオープンソースで公開。Warner・Universalとのライセンス契約で学習データの権利問題もクリアしています。
AI

MoEの推論コストを半減 — ZEDA自己蒸留で事後最適化

Mixture of Experts(MoE)モデルのエキスパート計算量を50%以上削減し推論を約1.20倍高速化するZEDAが発表されました。フルトレーニング不要の事後最適化手法で、Qwen3-30B-A3BやGLM-4.7-Flashで既存の動的MoE手法を4〜6ポイント上回る性能を示しています。
AI

SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満

arXiv論文SaaS-Benchが、LLMベースのコンピューター操作エージェント(CUA)を実際の業務SaaS 23システムで検証しました。最高性能のエージェントでもタスク完了率は4%未満で、計画・状態認識・クロスアプリ連携・エラー回復の4点が主な失敗要因と特定されています。
AI

Anthropic dreaming—Claudeが自己改善する仕組み

Anthropicが2026年5月のCode with Claudeで「dreaming」を発表しました。Claude Managed AgentsがセッションとセッションのあいだにAIが過去記録を見直して改善するもので、法律AIのHarveyではタスク完了率が約6倍、医療文書のWisedocsでは審査時間が50%短縮されています。