OpenAI、GPT-Rosalindで自律型AI化学者を実現

OpenAIは2026年6月17日、2つの大きな動きを同時に発表しました。一つは自律型AI化学者として動作するGPT-Rosalindの機能強化で、医薬品化学（medicinal chemistry：医薬品として機能する分子の合成・最適化を扱う化学領域）の難しい反応を改善できる段階に到達したというものです。もう一つはライフサイエンス分野のAI評価基準「LifeSciBench」の公開で、173人の外部科学者が作成した750のタスクで構成されています。評価の結果、現行の最善AIでも3問に1問しか正答できないという事実が示され、AI化学者の現在地と課題が浮き彫りになりました。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

AIと科学研究の融合は、ここ数年で急速に進んでいます。DeepMindのAlphaFold 3がタンパク質構造予測でノーベル化学賞に貢献したことは記憶に新しく、AIが生命科学の基礎研究で大きな役割を担うことが広く認識されるようになりました。しかしタンパク質予測という特定ドメインとは異なり、実際の薬剤開発プロセス——仮説設定・実験設計・データ解釈・合成計画・最適化——をエンドツーエンドでこなすAIは、まだ限られています。

GPT-Rosalindは、OpenAIがライフサイエンス特化として開発してきたモデルです。これまでのバージョンではゲノム解析のコンピューティングコスト削減機能が追加されるなど、研究者支援の幅を広げてきました。今回の更新では特に医薬品化学への展開が強調されており、wet lab（実際の実験室でのウェット実験）のトラブルシューティングや複雑な医化学クエリへの対応など、より実務に近いタスクでの活用が視野に入っています。

LifeSciBenchはこうした進歩を客観的に評価するための「物差し」として設計されました。既存のベンチマークがしばしば孤立した知識問題や単純なタスクで構成されているのに対し、LifeSciBenchは実際の研究者が実務で行うような複合的なタスクを問います。Tacit Labs（創薬フィードバックループを専業とするスタートアップ）との共同設計により、現実の研究業務との乖離を最小化しています。

技術/ビジネス面

medical science microscope researcher — Photo by Usman Yousaf on Unsplash

LifeSciBenchは750のタスクを6カテゴリに分類しています。証拠の取り扱い（研究論文の解釈や参照整合性の確認）、分析（データの定量的処理・パターン抽出）、設計・最適化（実験計画・分子設計）、科学的推論（仮説生成・メカニズム説明）、検証・オペレーション（実験の再現性確認・プロトコル評価）、そして翻訳・コミュニケーション（専門知識の平易化・論文執筆支援）の6つです。これらはどれも実際の研究者が日常的に行う業務と対応しており、単一の知識テストではなく「研究者としての総合力」を測る設計になっています。

評価の結果、現行の最善AIモデルでも約3問に1問（約33%）しか正答できませんでした。特に実験の設計・最適化カテゴリと検証・オペレーションのカテゴリでAIの弱点が顕著で、人間の専門研究者との差が大きかったとされています。一方で証拠の取り扱いや翻訳・コミュニケーションのカテゴリでは相対的に高い正答率を示しており、「文書を読んで整理する」タスクは得意でも「実験を設計して検証する」タスクは苦手という構図が浮かびます。

GPT-Rosalindの今回の強化点として、医薬品化学での困難な反応の自律的な改善、複雑な医化学クエリへの回答精度向上、定量生物学の計算支援、wet labのトラブルシューティング対応などが挙げられています。以前のバージョンからの性能向上幅は公表されておらず、LifeSciBenchでの具体的なスコアも明示されていませんが、「自律型AI化学者」という位置づけを明確にした点で方向性の転換が見えます。

これからどうなるか

「AI化学者の正答率約33%」は、ライフサイエンス分野でのAI活用に現実的な期待値を与えます。どのカテゴリのタスクなら信頼でき、どこでは人間の専門家によるレビューが必須かを判断する際の基準として、LifeSciBenchのスコア分布は実践的な設計指針になります。GPT-RosalindのAPIを自社の研究支援ツールに組み込む開発者にとっては、6カテゴリそれぞれの得意・不得意を踏まえたシステム設計が重要になります。

創薬開発のコスト削減への期待は大きく、1新薬あたり平均10〜15年・10億ドル超がかかるとされる開発プロセスにAIが入り込む意義は計り知れません。LifeSciBenchが業界標準として普及すれば、各社のAI化学者ツールを比較する公正な軸ができ、競争と改善の循環が生まれます。一方で、33%という現状のスコアが示すように、AIが人間の研究者を完全に代替するまでにはまだ大きな距離があります。当面は補助ツールとしての活用が現実的でしょう。