AIによるAI研究の実現へ:AIサイエンティスト論文がNature誌に掲載


AIサイエンティストは、多くの可能性の「木」を自律的に探索しながら、科学的ブレイクスルーを見つけだす。Credit: Artwork by CERTO, Inc.


2024年、私たちがAIサイエンティスト(The AI Scientist)プレプリント(査読前論文)として公開した際、そこには一つの野心的なビジョンがありました。それは、基盤モデルを駆使し、アイデアの創出から実験、論文執筆に至る「機械学習研究のライフサイクル全体」を完結させる自律型エージェントの構築です。その後、改良を重ねた「AI Scientist-v2」(プレプリント)は、人間による査読プロセスを突破し、世界で初めて「完全にAIが生成した論文」として採択されたことを報告しました。

この度、これら一連の取り組みと新たな知見をまとめた論文が、国際的な学術誌 『Nature』 に掲載されたことを発表いたします。これは、Sakana AI、ブリティッシュコロンビア大学(UBC)、Vector Institute、そしてオックスフォード大学の研究者らが一丸となって取り組んだパートナーシップによる成果です。

今回の Nature論文(オープンアクセス)では、システムのアーキテクチャやスケーリングに関する新知見、そして「AIが科学を生成する未来」がもたらす展望と課題について、包括的に詳述しています。

AIサイエンティストが生成し、AIトップカンファレンスのワークショップの査読プロセスを通過した論文。


開発の歩み

今回の掲載に至るまで、私たちは基盤モデルの進化に合わせて試行錯誤を繰り返し、改良を重ねてきました。

  1. 研究の自動化が可能であることの証明

    初期のリリースでは、まずシンプルな学習コード(例:nanoGPT)をテンプレートとして与えました。システムはそこから自律的に斬新なアイデアを膨らませ、実験を実行し、一編の論文へとまとめ上げます。同時に、論文の質を評価する「自動査読システム(Automated Reviewer)」も構築。これにより、研究プロセスのエンドツーエンドでの自動化が可能であることを証明しました。

  2. 科学の「チューリングテスト」への挑戦

    次に私たちは、AI研究の幅広いトピックを自由に探究できるよう、システムに大きな自由度を与えました。そしてその能力を試す究極のテストとして、AIが生成した未修正の論文を、ICLR 2025のワークショップ「ICBINB(I Can’t Believe It’s Not Better)」の厳格なブラインド査読に提出しました。その結果、ある論文は平均スコア6.33を獲得し、これは人間が執筆した論文の55%を上回る評価であり、採択基準の平均値を上回るものでした。この取り組みはワークショップ主催者の許可を得て実施し、採択後に規定通り取り下げを行いました。

今回の Nature 論文では、これらの成果を統合しつつ、AIサイティストを支える高度な複数モデルがどのように組み合わされているかを示しています。概略としては、AIサイエンティストには大まかな方向性を与えるだけで、システムは自律的なアイデア創出、文献調査、エージェントによる木探索(Agentic Tree Search)を用いた実験設計・実装・実行を並列的に行います。最終的には、LaTeX 形式での論文執筆に加え、視覚能力を持つモデルが図表のチェックまで一貫して担います(下図)。

AIサイエンティストのワークフロー概観。アイデア生成から、実験の実装・実行、論文執筆、そして最終的な査読に至る一連のプロセスをAIが自律的に行う。


新たな知見:自動査読と「科学のスケーリング則」

AIが生成する膨大な研究成果を、人間の査読者に負担をかけずに評価するため、私たちは自動査読システムを構築しました。このシステムは、NeurIPSの公式ガイドラインに準拠し、複数の査読結果を統合して最終判定を下す「エリアチェア(AC)」の役割を果たします。

OpenReviewのデータセットに含まれる数千件の実際の人間の判定結果と比較したところ、この自動査読システムは複数の尺度において人間と同等の性能を示しました。具体的には、バランス精度(balanced accuracy)で69%を記録し、F1スコアにおいては、「NeurIPS 2021の一貫性実験」で測定された人間同士の合致率を上回る結果となりました(下図)。


自動査読システムによる判定と人間の査読結果の比較。学習データのカットオフ前の後のいずれの時期のICLR論文においても人間と同等の判定精度を示した。


重要な発見として、この査読システムを用いて異なる基盤モデルが生成した論文を採点したところ、下図のようなスケーリング則(scaling law)、つまり基盤となるモデルが進化するにつれて、生成される論文の質も向上する傾向がみられました。これは、モデルの能力が向上し続ける限り、将来のAIサイエンティストはより一層高い能力を持つようになることを強く示唆しています。


自動査読システムによる評価スコア。基盤モデルの能力向上に伴い、生成される論文の質も向上していく「科学のスケーリング則」を示している。


課題とこれから

人間による査読の突破は大きな一歩ですが、AIサイエンティストはまだ開発の初期段階にあります。Nature論文でも詳述している通り、現時点では以下のような課題も残されています。

ただし、機械学習の歴史を振り返れば、新たな能力が一度芽生えれば、初期の制約を乗り越えて驚異的な進化を遂げることは珍しくありません。計算リソースの投入(スケール)や基盤モデル自体の高度化によって、その能力は人間の水準を急速に凌駕していくためです。今回私たちが提示した手法が他領域へと波及し、真にオープンエンドな発見を通じて科学全体の進歩を加速させる「触媒」となることを期待しています。


科学的発見のパラダイムシフトに向けて

論文執筆の自動化は、既存の査読システムの負荷増大や、研究実績の不当な水増しといった、倫理的・社会的な深い問いを私たちに投げかけます。私たちは、この技術を責任を持って開発することに強くコミットしています。AI生成論文がもはや「可能」なだけでなく、場合によっては人間の成果に匹敵するという事実を社会に正しく伝えることも、その責任の重要な一部であると考えています。

今回の研究にあたっては、事前に倫理委員会(IRB)の承認を得た上で実験を行い、採択されたAI生成論文についても、事前に決めていた通り自発的に取り下げを実施しました。また、AIが生成したものであることを明示するため、すべての論文に「ウォーターマーク(透かし)」を付与しています。私たちは、こうした透明性の確保をコミュニティ全体の標準とし、AIを活用した研究に関する明確な基準が確立されることを推奨します。

本プロジェクトに多大なる貢献をいただいた共同研究者の Jeff Clune 氏(ブリティッシュコロンビア大学、Vector Institute、CIFAR チェア)、および Jakob Foerster 氏(オックスフォード大学)に、改めて深く感謝の意を表します。

今回の Nature 掲載は、発見のプロセスがもはや人間のみの営みではなくなる「新たな時代の幕開け」を象徴するものです。疲れを知らない伴走者としてのAIエージェントと共に、私たちは科学的ブレイクスルーのスピードを劇的に高められる未来へと加速しています。安全性を十分に確保した上で用いれば、『The AI Scientist』のようなシステムは、疾病の克服や人類全体の豊かさの実現、地球環境の保護や宇宙の探査など、あらゆる科学の可能性を切り拓く力となると信じています。



AIサイエンティストの詳細については、Nature論文、またはGitHub上のオープンソースコードをぜひご覧ください。



Sakana AI

日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。