AI

StylisticBias:MLLMの偏見の80%を生む15の視覚的属性

マルチモーダルLLMの社会的偏見の約80%がわずか15の視覚属性から生じることを示すStylisticBias論文が公開されました。5万枚の画像実験でファッションスタイル・年齢・体型が特に強い偏見を生み出すと特定されており、対策の絞り込みが可能になることを示しています。
AI

マウスと視線でLLMを改善 — 暗黙的フィードバックによるアライメント手法

マウス軌跡と視線データを使ってユーザーの好みを暗黙的に推定し、LLMアライメントを改善するIFLLM手法が発表されました。59人から収集した1,336件のデータで報酬モデルの精度が55%から64%へ改善し、DPO適用時の品質改善量がテキストのみの約3倍になっています。
AI

ORAgentBench論文:LLMエージェントが業務最適化で35%止まりの理由

LLMエージェントが業務最適化問題をどこまで解けるかを測るORAgentBenchが公開されました。107件の実務タスクに対する14エージェント構成の評価で最高スコアは35.51%、難問では20.59%にとどまり、業務ルール見落としや解の品質不足が主な失敗パターンとして明らかになっています。
AI

Reliance AGM 2026:5億人対象のJio AI通話エージェント発表

Relianceが年次株主総会でJio Call Agentを発表しました。「Hey Jio」で通話中にAIエージェントが参加し、通話文字起こし・タスク実行まで対応します。5億人超のJioユーザーへ追加アプリなしで展開予定で、22言語対応と1,100億ドルのインフラ投資を背景に持ちます。
AI

Anthropic Fable 5、米政府の輸出規制で全世界停止

AnthropicのFable 5とMythos 5が米政府の輸出規制指令を受けて全世界で利用停止となりました。IPO申請の直後に発動された今回の措置はAmazon研究者によるジェイルブレイク報告が契機で、企業評価額9,650億ドルのIPO計画への影響が注目されています。
AI

エージェント時代のウェブ再設計 — ATML提案論文が問う新基準

arXiv論文(2606.19116)がAIエージェントを前提としたウェブの再設計を提案しました。CAPTCHAやブロックで弾く現状への問題提起とともに、アクセス・経済・コンテンツの3層設計とATML(エージェント向けマークアップ言語)の導入を示しています。
AI

VISUALSKILL:視覚スキルでPC操作エージェント精度+15pt

MITなどの研究者がPC操作エージェント向けのマルチモーダルスキルライブラリVISUALSKILLを発表しました。テキストだけでなくUI図・スクリーンショットも保持する設計で、ベースラインから+15.3ポイントの精度向上を達成しています。MCPツールとして実装済みで組み込みやすい構成です。
AI

OpenAI、GPT-Rosalindで自律型AI化学者を実現

OpenAIがGPT-Rosalindの機能強化とLifeSciBench公開を同時に発表しました。173人の科学者が作成した750タスクの評価では、現行AIの正答率は約33%にとどまり、AI化学者の現在地と課題が具体的なデータで明らかになっています。
AI

General Intuition、$300M調達でエンボディドAIに参入

ゲームプレイ動画データを活用してエンボディドAIを鍛えるGeneral Intuitionが$300M・評価額$2B超での調達交渉を進めています。前回シードから8ヶ月での大型追加調達の背景には、年間20億本のゲーム動画を持つMedalの独自データ資産があります。
AI

CEO-Bench発表 — AIエージェントは長期経営判断が苦手

スタートアップ経営500日間をシミュレートするエージェント評価基準CEO-Benchが公開されました。Claude Opus 4.8とGPT-5.5だけが初期資金を維持できた一方、安定した黒字化を達成できたモデルは皆無で、長期戦略判断の難しさが示されています。