AI

AI

AI曝露スコアの限界と次の一手 — 雇用影響指標の再設計提言

AIが職業タスクをどれだけ代替できるかを示す「AI曝露スコア」の限界を整理した論文が公開されました。スコアが政策議論で文脈を外れてひとり歩きする問題を指摘し、労働者参加型の指標再設計と研究インフラの整備を提言しています。
AI

能動的推論で物理AIの推論効率36%改善 — 新スケーリング則

物理AIエージェントに能動的推論(Active Inference)を適用しテスト時スケーリングを実現する論文が公開されました。自律走行タスクで推論効率を36%以上改善し、学習時未経験のシナリオへの汎化も達成しています。ロボティクス開発の設計選択肢が広がります。
AI

LLMエージェントの計画は消える — 34pt低下を実証した論文

LLMエージェントが長時間タスクを実行すると冒頭に立てた計画情報がコンテキストウィンドウから押し出され、タスク性能が最大34.7ポイント低下するとの論文が公開されました。Llama-3.1-70Bでは1ステップで4.1倍減衰しており、エージェント設計の根本課題を示しています。
AI

AgentCIBench論文:PC操作AIの67.9%が情報漏えい

コンピュータを自律操作するAIエージェント15モデルを評価したところ、11モデルが半数以上のシナリオで個人情報を意図せず漏えいし、平均漏えい率は67.9%に達しました。評価基準AgentCIBenchも公開され、展開前のプライバシー検証が不可欠と示しています。
AI

Claude Tag:Slack上でチーム記憶を持つAI同僚が登場

AnthropicがSlack向け新機能「Claude Tag」を研究プレビューとして公開しました。エンタープライズ・チームプランで利用可能で、チャンネルをまたいで組織の会話から知識を蓄積し、タスクを段階的に自律実行します。
AI

Codex Record & Replay:業務を1回見せるだけで再現

OpenAI CodexがmacOSで「Record & Replay」機能を追加しました。ユーザーが1回の実演でワークフローを見せるとSKILL.mdを生成し、以降は自律的に同じ作業を繰り返します。EEA・英国・スイスを除く全サブスクライバーが利用可能です。
AI

Colorado AI Act 6月30日施行:開発者への影響

コロラド州のAI消費者保護法SB 24-205が6月30日に施行されます。採用・医療・金融分野のハイリスクAIに差別防止義務が課され、違反は1件2万ドルの制裁金。コロラド州居住者向けサービスを持つ開発者は即確認が必要です。
AI

LLM誤整合を活性化ベクトルで99.6%検出 — 新手法

LLMをセキュリティ問題のあるコードでファインチューニングした際に生じる意図せぬ誤整合を、単一の活性化方向で99.6%の精度で検出できるとする論文が公開されました。モデル横断の転用は効果がなく、モデル内部監査が有効と示しています。
AI

GPT-5.6 発売窓口が開幕:1.5Mトークンとアライメント修正

OpenAIの首席科学者がGPT-5.6を「意味ある改善」と評し、6月22日から発売予測ウィンドウが開幕しました。1.5Mトークンのコンテキスト拡大と新アライメントパイプラインが主な特徴で、エージェント開発者が注目しています。
AI

Reflection AI、SpaceXと$6.3Bの計算資源契約

SpaceXのColossus 2データセンターにNvidia GB300チップを確保します。Anthropicモデルが輸出規制で停止した直後のタイミングで、オープンウェイトAIへの大規模計算資源投入が本格化した象徴的な取引です。