AI

AI

SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満

arXiv論文SaaS-Benchが、LLMベースのコンピューター操作エージェント(CUA)を実際の業務SaaS 23システムで検証しました。最高性能のエージェントでもタスク完了率は4%未満で、計画・状態認識・クロスアプリ連携・エラー回復の4点が主な失敗要因と特定されています。
AI

Amazon Alexa+、要求に応じてAI音声ポッドキャストを生成

Amazonが2026年5月18日、Alexa+に「Alexa Podcasts」機能を追加しました。ユーザーがトピックを指定するだけでAIがリサーチから音声ナレーションまで自動生成し、AP通信・ロイターとのパートナーシップで情報精度を担保します。
AI

FORGE: 重みの更新なしでLLMエージェントが自己進化する新手法

arXiv論文FORGEは、LLMエージェントがモデルの重みを更新せずに自己改善する集団型プロトコルを提案しています。複数エージェントが並列で失敗を学び合う「集団ブロードキャスト」により、Reflexion比で最大72%の性能改善を達成しました。
AI

grep検索がベクトル検索を上回る — arXiv論文で検証

arXiv論文「Is Grep All You Need?」(2605.15184)が、LLMエージェントのコードベース検索でgrep検索がベクトル検索を一般に上回ることを116問のベンチマークで実証しました。検索手法よりもエージェントハーネス(ツール呼び出し設計)の違いがスコアを大きく左右することも判明しています。
AI

Anthropic dreaming—Claudeが自己改善する仕組み

Anthropicが2026年5月のCode with Claudeで「dreaming」を発表しました。Claude Managed AgentsがセッションとセッションのあいだにAIが過去記録を見直して改善するもので、法律AIのHarveyではタスク完了率が約6倍、医療文書のWisedocsでは審査時間が50%短縮されています。
AI

Google DeepMind、AI時代のポインター再設計を発表

Google DeepMindが2026年5月12日、マウスポインターをAI時代向けに再設計した「AIポインター」を発表しました。フロー維持・視覚認識・自然言語・ピクセルから実体への変換という4原則で設計され、ChromeのGeminiと秋発売のGooglebookへの統合が予定されています。
AI

AI関連レイオフは株価を上げない — S&P500の56%が下落

CNBCが2026年5月17日、AI関連のレイオフを発表したS&P500企業23社のうち56%で株価が下落していたと報告しました。人件費を削ってAI投資に回しても、投資家は実際のROIを見極めており「AIレイオフ=株高」の構図は成立しにくい状況です。
AI

arXiv、AI生成論文に1年禁止措置 — 幻覚引用で一発アウト

arXivが2026年5月、AI生成コンテンツを未確認のまま投稿した著者に1年間の利用禁止と査読必須化を適用する新ポリシーを発表しました。幻覚引用やLLMのメタコメントが証拠となり、コンピュータサイエンス部門から段階的に適用が始まります。
AI

Google Android Show 2026: Gemini IntelligenceとGooglebookを先行発表

GoogleがAndroid Show 2026にてGemini Intelligence・Android 17・新AI PC「Googlebook」を先行発表しました。複数アプリをまたぐ自動化を可能にする「OSからインテリジェンスシステムへ」の転換が、5月19日のGoogle I/O本番を前に明かされました。
AI

Thinking Machines Lab、全二重AIを公開 — 応答0.4秒でGPT超え

Thinking Machines Labが「インタラクションモデル」を研究公開しました。音声・映像・テキストを単一ネットワークで処理する全二重設計で応答0.4秒を実現し、FD-benchではGPT-realtime-2.0を約30点上回るスコアを記録しています。