poko

AI

ORAgentBench論文:LLMエージェントが業務最適化で35%止まりの理由

LLMエージェントが業務最適化問題をどこまで解けるかを測るORAgentBenchが公開されました。107件の実務タスクに対する14エージェント構成の評価で最高スコアは35.51%、難問では20.59%にとどまり、業務ルール見落としや解の品質不足が主な失敗パターンとして明らかになっています。
AI

Reliance AGM 2026:5億人対象のJio AI通話エージェント発表

Relianceが年次株主総会でJio Call Agentを発表しました。「Hey Jio」で通話中にAIエージェントが参加し、通話文字起こし・タスク実行まで対応します。5億人超のJioユーザーへ追加アプリなしで展開予定で、22言語対応と1,100億ドルのインフラ投資を背景に持ちます。
AI

Anthropic Fable 5、米政府の輸出規制で全世界停止

AnthropicのFable 5とMythos 5が米政府の輸出規制指令を受けて全世界で利用停止となりました。IPO申請の直後に発動された今回の措置はAmazon研究者によるジェイルブレイク報告が契機で、企業評価額9,650億ドルのIPO計画への影響が注目されています。
AI

エージェント時代のウェブ再設計 — ATML提案論文が問う新基準

arXiv論文(2606.19116)がAIエージェントを前提としたウェブの再設計を提案しました。CAPTCHAやブロックで弾く現状への問題提起とともに、アクセス・経済・コンテンツの3層設計とATML(エージェント向けマークアップ言語)の導入を示しています。
AI

VISUALSKILL:視覚スキルでPC操作エージェント精度+15pt

MITなどの研究者がPC操作エージェント向けのマルチモーダルスキルライブラリVISUALSKILLを発表しました。テキストだけでなくUI図・スクリーンショットも保持する設計で、ベースラインから+15.3ポイントの精度向上を達成しています。MCPツールとして実装済みで組み込みやすい構成です。
AI

OpenAI、GPT-Rosalindで自律型AI化学者を実現

OpenAIがGPT-Rosalindの機能強化とLifeSciBench公開を同時に発表しました。173人の科学者が作成した750タスクの評価では、現行AIの正答率は約33%にとどまり、AI化学者の現在地と課題が具体的なデータで明らかになっています。
AI

General Intuition、$300M調達でエンボディドAIに参入

ゲームプレイ動画データを活用してエンボディドAIを鍛えるGeneral Intuitionが$300M・評価額$2B超での調達交渉を進めています。前回シードから8ヶ月での大型追加調達の背景には、年間20億本のゲーム動画を持つMedalの独自データ資産があります。
AI

CEO-Bench発表 — AIエージェントは長期経営判断が苦手

スタートアップ経営500日間をシミュレートするエージェント評価基準CEO-Benchが公開されました。Claude Opus 4.8とGPT-5.5だけが初期資金を維持できた一方、安定した黒字化を達成できたモデルは皆無で、長期戦略判断の難しさが示されています。
AI

米国人の16%しかAIを肯定的に見ない — Pew Research調査

Pew Research Centerの最新調査で、AIが社会に好影響を与えると考える米国人は16%にとどまることが明らかになりました。67%が政府の規制に懐疑的で、59%が企業の安全な開発を信頼していないというデータが示されています。
AI

XDOF、7000万ドル調達 — ロボット訓練データの専門企業が始動

ロボットAIの訓練データ収集を専業とするXDOFがa16z・Thrive Capitalなどから7000万ドルを調達しました。テキストデータがLLMを支えたように、物理操作データがロボット工学の次のボトルネックと位置づけられています。