AIの創造的な推論力を測る：Sudoku-Benchリーダーボード公開

May 26, 2025

Sakana AIは、AIの多段階かつ創造的な推論能力を測定するため、数独パズルとその派生版を用いたベンチマーク「Sudoku-Bench」を2025年3月に発表しました。この度、Sudoku-Benchにおける各AIモデルの性能を評価したリーダーボードを公開しました。

論文：https://arxiv.org/abs/2505.16135
リーダーボード：https://pub.sakana.ai/sudoku/
Github：https://github.com/SakanaAI/Sudoku-Bench

主要な結果：

問題セットには、4×4の簡単な盤面から9×9の最難関の現代数独まで、幅広い難易度の数独パズルを収録
最有力のリーズニングモデルでも、全体の正答率は15％に留まった。
特に、9×9マスの現代数独においては、高性能モデルである「o3 mini high」でさえ正答率は2.9%。

この結果は、人間が持つ「創造的な推論能力」について、最先端のAIモデルであってもまだ大きな発展の余地があることを示しています。

※以下の記事は2025年3月に公開した英語ブログ、また5月に公開した論文をもとに構成したものです。

リーズニング能力を「数独」で測る

近年、大規模言語モデル（LLM）の進化は、大量のデータ学習による能力向上から、論理的な思考プロセスを追う「リーズニング能力」の高さへと焦点が移っています。これに伴い、リーズニング能力を正確に評価するベンチマークテストの重要性が増しています。

ARC-AGIのような代表的なベンチマークは、最先端のAIモデルによって次々と攻略されています。しかし、現在のAIは、人間が持つ高度で創造的な推論能力までは獲得していません。

そこでSakana AIは、このような高度な推論能力を効果的に測定する手段として、日本で広く親しまれている「数独」（商標：株式会社ニコリ）と、そこから派生したパズル文化に着目しました。数独は、1980年代に日本のパズル制作会社ニコリによって国内で普及しました。その後、2000年代にはイギリスの新聞掲載を機に「Sudoku」として海外にも広まっていきます。

数独は、9×9のマス目の縦・横の各列と3x3のブロック内に数字が重複しないように配置するパズルです。しかし近年では、独自のルールが加わった多様な派生パズルが日々考案されています。これらの「現代数独」（と本記事では呼ぶことにします）は、多段階かつ創造的な推論能力を必要とする一方、正解が一つに定まるため、AIの推論能力を測る試金石として最適です。最難関レベルの現代数独は、人間のチャンピオンでさえ解くのに数時間を要するほどの難度となります。

様々な現代数独：（左）RAT RUN 7: Multiple Choice by Marty Sears、（中央）Reserved Parking by rockratzero、（右）Chaotic Wrogn by Under Beyond

Sudoku-Bench：創造的なリーズニング能力を測る新たなベンチマーク

Sakana AIは2025年3月、多様な難易度の数独パズルで構成されるベンチマーク「Sudoku-Bench」を公開しました。

Github：https://github.com/SakanaAI/Sudoku-Bench

このベンチマークには、伝統的な数独と現代数独の問題が含まれています。難易度は段階的に設定されており、現行モデルでも解けるシンプルなものから、最先端のリーズニングモデルでも歯が立たない極めて難しい問題まで幅広く採録しています。

簡単なものから最難関まで段階的な難度のパズルを採録

ベンチマーク作成では株式会社ニコリ様より、手作りの数独パズルを100問ご提供いただきました。自動生成されたパズルとは異なり、熟練のパズル作家による手作りパズルは、多様な思考ステップを要する「面白さ」と、豊かな発想力が求められる問題で構成されているのが特徴です。

さらに、登録者数60万人以上を誇る最大級のYouTubeパズル解説チャンネル「Cracking The Cryptic」とも提携しました。同チャンネルは、ホストのSimon Anthony氏とMark Goodliffe氏（共に世界数独選手権イギリス代表経験者）が、世界トップクラスの数独パズルを論理的に解き明かす様子を毎日配信しており、数千時間にも及ぶ世界チャンピオンシップレベルの解説動画が蓄積されています。Sakana AIは、これらの動画の書き起こしと、解答中の操作（アクション）データを取得しました。これらはAIのリーズニングモデル訓練に理想的なデータと考えられ、Sudoku-Benchと併せて公開しています。

数独解答アクションのデータ例　出題： Its a secret, by Jaxar (Cracking The Cryptic)

現代数独は今のAIにはまだ難しい

今回、Sudoku-Benchを用いて現在の最先端AIモデルの性能をテストしました。その結果、「o3 mini high」や「Gemini 2.5 pro preview」といった主要モデルでさえ、全問題セットに対する正解率は15%未満でした。特に9×9サイズの現代数独においては、正答率が低い水準に留まっています。詳細はリーダーボードをご覧ください。

Sudoku-Benchリーダーボード

現在のAIシステムには、現代数独を解く上で根本的な制約が見られます。AIは新しい独自のルールを理解する能力は示すものの、解答に至る最終段階でつまずく傾向があります。多くのステップを経て局所的に整合性の取れた数字を配置し、完成に近い解答を生成できても、最終局面で誤りを犯すケースが少なくありません。

対して、人間の熟練者は特定のメソッドを用いた探索的な推論（リーズニング）を行います。安易な仮定を避け、問題ごとの条件を徹底的に分析することで、「ブレイクインポイント」と呼ばれる解決の糸口となる重要な着想を見つけ出します。このブレイクインポイントは、パズル作家が意図的に設定することも多く、発見できれば一気に解答への道が開けるように設計されています。

このような創造的な推論は、一度「ブレイクインポイント」を発見すれば理解しやすく、ひらめきの喜びも伴います。この発見こそがリーズニングの核心であり、現在の最先端AIモデルに欠けている能力です。今回公開したSudoku-Benchには、こうした魅力的かつ挑戦的なブレイクインポイントを含む数独パズルを厳選して収録しました。本ベンチマークが、AIモデルのより深く、創造的なリーズニング戦略の獲得を促進することを期待しています。

このプロジェクトは、2025年3月に開催されたNVIDIAのGTC開発者会議でも紹介されました。その際、NVIDIAのジェンスン・ファンCEOからは「AIのリーズニング能力を高める上で、数独のようなパズルが役立つだろう」とのコメントが寄せられています。

2025年3月のGTCでのジェンスン・ファンNVIDIA CEOの講演

ぜひSudoku-Benchで様々なAIモデルの性能をお試しください。ファンCEOの言葉通り、Sudoku-BenchがAIのリーズニング能力を新たな段階へと引き上げる足がかりとなることを確信しています。

おまけ：数独作家Marty Sears氏に特別に制作いただいたSakana AIオリジナル数独。Parity Fish by Marty Sears

Sakana AI

日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。