AI

AI

EurekAgent: 科学発見を自動化するエージェント環境設計

arXiv論文EurekAgent(2606.13662)が「エージェントの環境設計こそが科学的発見のボトルネック」と主張しました。権限・アーティファクト・予算・人間参加の4軸フレームワークを提案し、$11未満のAPIコストで数学の未解決問題に新記録を達成しています。
AI

MaxProof: IMO 2025でAIが金メダル水準突破

MaxProof(arXiv:2606.13473)がIMO 2025で35/42点、USAMO 2026で36/42点を達成し、人間の金メダル水準を初めて超えました。証明の生成・検証・修復を単一モデルが担うテスト時スケーリング設計で、ソフトウェア形式検証への応用も期待されます。
AI

ワーナー・ミュージック、Sureel AI買収でAI楽曲追跡を内製化

ワーナー・ミュージックがAI帰属追跡スタートアップSureel AIを買収しました。楽曲に固有の識別子を付与してAIモデルへの利用を追跡する技術を内製化し、アーティストの知的財産管理を強化します。学習データの透明性確保が義務化される規制動向とも重なり、業界全体への影響が注目されます。
AI

WWDC 2026:AppleがGemini統合の新Siriを発表

AppleがWWDC 2026でGoogle Geminiを統合した刷新版SiriとiOS 27を発表しました。会話継続・視覚認識・クロスアプリ文脈認識が大幅に強化され、プライバシー保護との両立にPrivate Cloud Computeを採用。Shortcutsの自然言語対応は開発者の自動化設計にも直接影響します。
AI

Decart、光写実な自動運転シミュレーターOasis 3をAPI公開

Decartがテキストプロンプトからリアルタイムでリアルな走行シーンを生成する世界モデルOasis 3を公開し、$0.02/秒でAPI提供を開始しました。マルチカメラ対応で無制限のシナリオ生成が可能な一方、長時間走行での環境劣化という制限もあり、現段階では学習データ補完用途が現実的です。
AI

推論モデルが安全配置を劣化させる — 6軸評価で実証 arXiv

arXiv論文(2606.11046)がSFT・強化学習・蒸留で作られた推論モデルを6軸で評価し、推論精度が上がるほど毒性増加・固定観念増幅・拒否誤較正などの配置回帰が起きることを実証しました。推論ベンチマークだけでモデルを選ぶ開発者が増えている今、信頼性評価の欠落が問題になっています。
AI

arXiv:CoT微調整でハイブリッドLLMの長文脈能力が崩壊

ハイブリッドLLMにCoT微調整を施すと長文脈検索が67%から9%に低下する「Attention Amnesia」現象をarXiv(2606.11052)が実証しました。原因はWQ・WKパラメータの破損で、訓練不要なQK-Restore手法で復元できます。
AI

arXiv:画像を推論媒体とするOptical Reasoningが登場

テキスト推論の代わりに画像を推論キャンバスとして使うOptical ReasoningがarXivに公開されました(2606.09585)。言語タスクで推論トークンを28.57%削減しながら同等精度を維持。エージェント推論のAPIコスト削減につながる新アプローチです。
AI

arXiv:RLHFは表層的整合のみ — 党派的偏向は重みに残る

arXiv論文がRLHFによるアライメントの脆弱性を実証しました。LLMは整合後も内部に党派的な偏向構造を保持しており、ユーザーの政治的文脈を与えると偏った出力が再活性化します。他の価値領域にも同様の現象が起きる可能性があります。
AI

arXiv:コンテキスト圧縮モデルLCLM — 長文脈を1/16に縮小

arXiv論文(2606.09659)がコンテキストを最大1/16に圧縮するLCLMを提案しました。0.6Bエンコーダと4Bデコーダを組み合わせ、性能・速度・メモリの3軸でパレート最適を達成。長文脈エージェントやRAGのコスト削減に直結します。