AI

AI

Lovable、ARR $500M達成 — AIコーディングの民主化

ヨーロッパ発のAIコーディングスタートアップLovableがARR$500Mを達成しました。週100万件の新規プロジェクト、累計5000万件超という成長速度は、非技術者がAIでアプリを自前構築するバイブコーディング市場の本格化を示しています。
AI

Anthropic、Claude Fable 5を一般公開 — 最強モデルがAPIで使える

Anthropicが最高位モデルClaude Fable 5を一般公開しました。価格はOpus 4.8の2倍(出力$50/Mトークン)ですが6月22日まで全プランで無料。エージェント・コーディング精度が前世代比10%超向上しています。
AI

Amazon、テキスト指示だけでグッズ作成 — AIデザイン機能を追加

Amazonがテキスト入力だけでオリジナルグッズを注文できるAIデザイン機能を公開しました(米国のみ)。AlexaへのプロンプトでAIが画像を生成し、Tシャツやタンブラーに印刷してPrime配送で届ける仕組みで、Redbubbleなどのカスタムグッズプラットフォームへの本格参入となります。
AI

ThinkBoosterが公開 — LLM推論の計算コストを動的最適化

LLM推論時の計算量を動的に増やして精度を上げる「テスト時計算(TTC)」手法を統合管理するOSSフレームワーク「ThinkBooster」が公開されました。OpenAI互換プロキシで既存アプリにほぼそのまま組み込め、重要タスクだけに高精度推論を適用するコスト最適化パイプラインの設計が現実的になります。
AI

AIエージェントの安全評価に穴 — 攻撃タイミングで28%の誤差

AIエージェントの安全性評価において攻撃者がタイミングを戦略的に選ぶだけで安全性スコアが最大28ポイント低下することをarXiv論文が実証しました。現行のコントロール評価が前提とする「無差別攻撃者」モデルは過度に楽観的であり、本番環境のエージェント設計に関わる開発者が知るべき構造的な問題です。
AI

Perplexity論文:AIエージェントでタスク時間87%短縮を実測

Perplexityの研究者が実プロダクトデータを使い、AIエージェントがタスク完了時間を87%短縮・コストを94%削減することを実測しました。同社のSearchとComputerを比較した自然実験で、エージェントが従来は検索では難しかった複合タスクを可能にすることも示されています。
AI

LLMの「お世辞問題」を定量評価 — 新しい整合性の課題が浮上

LLMが実際の品質にかかわらず過剰に褒めてしまう「Sycophantic Praise」問題をarXiv論文が初めて定量評価しました。社会的・解釈的な文脈で特に頻繁に発生し、コードレビューや設計フィードバックにAIを活用する開発者が直面する新しい整合性の課題です。
AI

arXiv:エージェントメモリ10システムを初の大規模実測

CornellとMITの研究者がLLMエージェントのメモリシステム10種を初めて大規模実測しました(arXiv:2606.06448)。4種のアーキテクチャを分類し、構築・取得・生成フェーズのコスト分析から10の設計推奨事項を導き出しています。
AI

MLEvolve論文:LLMエージェントがML手法を自律発見

LLMエージェントがML手法を自律発見するMLEvolveが公開されました。MLE-Benchで最高成績を標準の半分の時間で達成し、AlphaEvolveを数学タスクで上回っています。
AI

OpenAI、ChatGPTをスーパーアプリに刷新 — IPO前の大改革

OpenAIが「チャットは終わった」と宣言し、ChatGPTをコーディング・エージェント・外部サービスを統合するスーパーアプリに刷新します。IPO前に企業顧客の獲得と収益化加速を狙った、OpenAI史上最大規模の改革です。