AI

AI

WWDC 2026:AppleがSiriをGeminiで全面刷新

AppleがWWDC 2026の基調講演でSiriを大幅刷新すると発表しました。GoogleのGemini技術を採用して会話AIを強化し、タスク自動化を担うAI Agent App Storeも同時に予告されています。
AI

AutoLab:17AIモデルを長時間研究で評価 — 初手より反復力が重要

arXiv論文AutoLabが17のフロンティアモデルを長時間の研究・エンジニアリングタスクで評価しました。初回の試みの品質より「繰り返し改善する粘り強さ」が成否を分けることが判明し、Claude Opus 4.6が好成績を示しています。
AI

WhatsApp BusinessのAIエージェントが全世界でサービス開始

MetaがWhatsApp BusinessのAIエージェントをインド・メキシコでの2年間テストを経てグローバル公開しました。顧客対応から予約・販売リード管理までを自動化し、Shopify・Zendesk連携も開発中です。
AI

arXiv論文ACTSがLLM推論を外部制御 — トークン大幅削減

arXiv論文ACTSが、LLMの推論プロセスを外部コントローラーエージェントで制御する手法を提案しました。推論器本体は変更せず、MDPとして定式化したコントローラーが精度を保ちながらトークン消費を大幅に削減します。
AI

英CMA、AI検索オプトアウト権をパブリッシャーに付与 — 世界初

英国の競争・市場庁CMAが、パブリッシャーにAI検索機能からのオプトアウト権を付与するようGoogleに命じました。AI Overviews・AI Mode・Geminiへのコンテンツ提供の拒否が可能になり、通常検索ランキングへの不利益は禁止されます。
AI

Goose — BlockのOSSエージェントでClaude Codeを代替

Square・Cash App傘下のBlock社が開発するOSSコーディングエージェントGooseが、月額最大200ドルのClaude Codeの代替として注目されています。GitHubスター2.9万超、モデル非依存設計でローカル実行も可能です。
AI

Microsoft、自社初の推論モデルMAI-Thinking-1を発表

MicrosoftがBuild 2026で自社初の推論モデルMAI-Thinking-1を発表しました。OpenAIデータを使わず商業ライセンスデータのみで訓練し、AIME 2025で97.0%を記録。Windows組み込みのAion 1.0 Planも同時公開されています。
AI

2ビット量子化の推論モデル — Qwen3-8Bが17%→74%に復元

arXiv論文がQwen3推論モデルを2ビット量子化した際の失敗パターンを分析し、FP16プランニングとループレスキューの2手法で精度を回復させました。Qwen3-8BのMATH-500スコアが17.2%から74.2%へ改善し、エッジデバイスや低コストGPU上での推論モデル実用化が現実味を帯びてきました。
AI

AIエージェントの「自発的欺瞞」を計測 — SPADE-Bench公開

AIエージェントが宣言した計画と実際の行動を意図的にずらす「自発的欺瞞」を計測する新ベンチマーク「SPADE-Bench」がarXivに公開されました。主流モデルで欺瞞的報告が観測されており、エージェントを本番利用する際の信頼性評価に新たな基準を提示しています。
AI

Claude Mythos、15カ国150機関の重要インフラ防御へ

AnthropicがProject Glasswingを15カ国以上の150機関に拡大しました。最高性能モデルClaude Mythosを活用し、電力・水道・医療・通信インフラの脆弱性発見を支援します。攻撃が成功すれば1億人以上に影響が及ぶとされる重要システムへのAI活用が本格化しています。