AI

LLMの地政学バイアス、原因はデータでなくポストトレーニング

7ペアのオープンウェイトLLMを比較した研究が、地政学バイアスの主因がポストトレーニング(モデル調整フェーズ)にあることを示しました。7社中6社で開発元国を優遇する偏りが確認され、Alibaba Qwen 2.5では約18倍のバイアス変化が起きていました。
AI

ツール使用がLLMを劣化させる — arXiv論文が「ツール税」を定量化

arXivに公開された論文が、LLMエージェントのツール使用が「ツール税」と呼ぶプロトコルオーバーヘッドを生み、ノイズ環境下ではツールなしのCoTより最大33ポイント正答率が低下することを示しました。エラーの70〜80%がプロトコル起因という分析は、エージェント設計の前提を問い直す結果です。
SQL

SQLインジェクションの仕組みと対策:プレースホルダで防ぐ方法

SQLインジェクションの仕組みを脆弱なコード例で確認し、プレースホルダ(プリペアドステートメント)による防御方法をPHP・Python・Node.jsの実例で解説します。MySQLで動く実用コード付き・初心者向け。
SQL

UNIONとUNION ALLの違いと使い分け:重複排除と性能を実例で解説

SQLで複数SELECT結果を縦結合するUNIONとUNION ALLの挙動の違いを実例で解説します。重複排除の仕組み・性能差の理由・ORDER BY/LIMITとの組み合わせ方をMySQL 8.0対応で整理。
AI

Ferrari×IBMがF1ファンアプリをAI刷新、エンゲージ62%増

スクーデリア・フェラーリがIBMと提携し、F1ファン向け公式アプリをAIで全面刷新しました。レースデータをリアルタイム解析して個人化コンテンツを配信する仕組みで、レース週末のエンゲージメントが62%増加。エンタープライズAIがスポーツファン体験に応用された先行事例です。
AI

TerminalWorld公開、AIのCLI達成率62.5%

実際のターミナル操作録画80,870件から自動生成したベンチマーク「TerminalWorld」が公開されました。6種のエージェント構成と8つのAIモデルをテストしたところ、最高達成率は62.5%にとどまり、現行AIエージェントが実務ターミナルタスクにまだ苦戦していることが示されました。
AI

LLMが知識を持っていても幻覚する理由 — arXiv論文が新解明

arXivに公開された論文によると、LLMの幻覚(ハルシネーション)の16〜47%は、モデルがすでに正しい答えの確率を持っているにもかかわらず発生します。問題は知識の欠如ではなく、確率質量が複数の候補に分散する「コミットメント失敗」にあることが示されました。
AI

AIスタートアップのARR水増し問題 — VCが黙認する指標操作の実態

AIスタートアップのARR(年間経常収益)を実際より高く見せる指標操作がVC投資の現場で横行しています。契約済み未着手の売上をARRに混入させる手法やランレートの12倍換算など、業界全体に広がる実態をTechCrunchが報じました。
AI

DeepMind Co-Scientist — 多エージェントAIが科学仮説を自動生成・検証

Google DeepMindが科学仮説の生成・討論・洗練を多エージェントで自動化する「Co-Scientist」を公開しました。肝臓線維症の薬候補が実験で91%の抑制効果を示すなど6分野で成果があり、研究者向けにlabs.google/scienceで登録受付中です。
AI

MOSS公開 — AIエージェントが自分のソースコードを書き換えて自律進化

arXivに公開されたMOSSは、AIエージェントがプロンプトや設定ファイルではなく自身のソースコードを自律的に書き換えて性能を改善するフレームワークです。OpenClawベンチマークで平均スコアが0.25から0.61に向上し、ルーティングロジックなどの構造的課題を人間介入なしで修正できます。