AI

AI

LLMの幻覚は予測可能 — モデルサイズとデータ頻度で決まる

LLMが誤った情報を生成する「幻覚」がランダム現象ではなく、モデルのパラメータ数と学習データ内のトピック出現頻度の組み合わせで分散の60〜94%を説明できるとするarXiv論文が公開されました。幻覚の発生パターンが予測可能になれば、RAG設計やモデル選定の根拠がより明確になります。
AI

マルチエージェントAI、人間チームを創造性で上回る — arXiv研究

複数のLLMエージェントが協調する「マルチエージェントAIシステム」が、6つの創造的タスクで人間チームをCohen's d=1.50で上回ったとするarXiv論文が公開されました。アイデアの新規性が主な要因で、議論の構造設計がAIの創造性を26.8%説明することも示されています。
AI

OpenAI共同創業者Karpathy、AnthropicのLLM研究へ

OpenAIの共同創業者でTesla Autopilot開発を率いたAndrej Karpathy氏が、Anthropicのプレトレーニングチームへ参加しました。Claudeを使ってLLM事前学習研究を加速する新チームを立ち上げ、OpenAIとの人材・技術競争がさらに激しくなっています。
AI

LetinAR: AIメガネの光学部品を供給する韓国スタートアップ

韓国スタートアップLetinARが独自光学技術「PinTILT」でAIメガネ向け部品市場に参入しています。ウェーブガイドとバードバスの欠点を補う薄型・明るい設計で日本企業やスイスのARヘルメット企業と商用展開を進め、1,850万ドル調達後の2027年IPOを目指しています。
AI

Meditron FO: 監査可能な臨床LLMで最高性能を達成

arXiv論文Fully Open Meditronは、学習データ・手順・評価をすべて公開した初の臨床LLMパイプラインです。47,000件の診療ガイドラインを含む医療QAで学習し、ベースモデル比6.6ポイント向上・MedGemma超えを達成し、完全公開でも最高水準の性能を出せることを示しました。
AI

SaaS-Bench: 実務23アプリで最高のCUAも完了率4%未満

arXiv論文SaaS-Benchが、LLMベースのコンピューター操作エージェント(CUA)を実際の業務SaaS 23システムで検証しました。最高性能のエージェントでもタスク完了率は4%未満で、計画・状態認識・クロスアプリ連携・エラー回復の4点が主な失敗要因と特定されています。
AI

Amazon Alexa+、要求に応じてAI音声ポッドキャストを生成

Amazonが2026年5月18日、Alexa+に「Alexa Podcasts」機能を追加しました。ユーザーがトピックを指定するだけでAIがリサーチから音声ナレーションまで自動生成し、AP通信・ロイターとのパートナーシップで情報精度を担保します。
AI

FORGE: 重みの更新なしでLLMエージェントが自己進化する新手法

arXiv論文FORGEは、LLMエージェントがモデルの重みを更新せずに自己改善する集団型プロトコルを提案しています。複数エージェントが並列で失敗を学び合う「集団ブロードキャスト」により、Reflexion比で最大72%の性能改善を達成しました。
AI

grep検索がベクトル検索を上回る — arXiv論文で検証

arXiv論文「Is Grep All You Need?」(2605.15184)が、LLMエージェントのコードベース検索でgrep検索がベクトル検索を一般に上回ることを116問のベンチマークで実証しました。検索手法よりもエージェントハーネス(ツール呼び出し設計)の違いがスコアを大きく左右することも判明しています。
AI

Anthropic dreaming—Claudeが自己改善する仕組み

Anthropicが2026年5月のCode with Claudeで「dreaming」を発表しました。Claude Managed AgentsがセッションとセッションのあいだにAIが過去記録を見直して改善するもので、法律AIのHarveyではタスク完了率が約6倍、医療文書のWisedocsでは審査時間が50%短縮されています。