AI

AI

エージェント時代のウェブ再設計 — ATML提案論文が問う新基準

arXiv論文(2606.19116)がAIエージェントを前提としたウェブの再設計を提案しました。CAPTCHAやブロックで弾く現状への問題提起とともに、アクセス・経済・コンテンツの3層設計とATML(エージェント向けマークアップ言語)の導入を示しています。
AI

VISUALSKILL:視覚スキルでPC操作エージェント精度+15pt

MITなどの研究者がPC操作エージェント向けのマルチモーダルスキルライブラリVISUALSKILLを発表しました。テキストだけでなくUI図・スクリーンショットも保持する設計で、ベースラインから+15.3ポイントの精度向上を達成しています。MCPツールとして実装済みで組み込みやすい構成です。
AI

OpenAI、GPT-Rosalindで自律型AI化学者を実現

OpenAIがGPT-Rosalindの機能強化とLifeSciBench公開を同時に発表しました。173人の科学者が作成した750タスクの評価では、現行AIの正答率は約33%にとどまり、AI化学者の現在地と課題が具体的なデータで明らかになっています。
AI

General Intuition、$300M調達でエンボディドAIに参入

ゲームプレイ動画データを活用してエンボディドAIを鍛えるGeneral Intuitionが$300M・評価額$2B超での調達交渉を進めています。前回シードから8ヶ月での大型追加調達の背景には、年間20億本のゲーム動画を持つMedalの独自データ資産があります。
AI

CEO-Bench発表 — AIエージェントは長期経営判断が苦手

スタートアップ経営500日間をシミュレートするエージェント評価基準CEO-Benchが公開されました。Claude Opus 4.8とGPT-5.5だけが初期資金を維持できた一方、安定した黒字化を達成できたモデルは皆無で、長期戦略判断の難しさが示されています。
AI

米国人の16%しかAIを肯定的に見ない — Pew Research調査

Pew Research Centerの最新調査で、AIが社会に好影響を与えると考える米国人は16%にとどまることが明らかになりました。67%が政府の規制に懐疑的で、59%が企業の安全な開発を信頼していないというデータが示されています。
AI

XDOF、7000万ドル調達 — ロボット訓練データの専門企業が始動

ロボットAIの訓練データ収集を専業とするXDOFがa16z・Thrive Capitalなどから7000万ドルを調達しました。テキストデータがLLMを支えたように、物理操作データがロボット工学の次のボトルネックと位置づけられています。
AI

ChatGPT市場シェアが50%割れ — GeminiとClaudeが侵食

Sensor Towerの調査で、ChatGPTの市場シェアが46.4%と初めて50%を下回りました。Gemini(27.7%)・Claude(10.3%)が伸びており、Claudeはサブスクリプション転換率13%で収益効率は最高水準です。
AI

Googleが6年ぶりスマートスピーカー — Geminiで会話型に

GoogleがGemini搭載のGoogle Home Speakerを99.99ドルで発売します。Nest Audio以来6年ぶりのスタンドアロン機で、複数ステップ命令への対応など会話型AIによる操作体験の刷新が特徴です。
AI

STATEWITNESS論文:LLM欺瞞をAUROC 0.916で検出

LLMが欺瞞的な応答を生成するリスクを活性化ベクトルから説明付きで検出するSTATEWITNESSが公開されました。既存最良手法と比べてAUROC 11.6%向上し、トークンレベルの根拠トレースで監査コスト削減にも貢献します。