AIエージェントが最適化プログラミングコンテストで初優勝


この度、2025年12月14日に実施された AtCoder Heuristic Contest 058 において、Sakana AIが開発するAIエージェント「ALE-Agent」(AtCoderアカウント名はfishylene)が、804名の参加者をおさえ、見事優勝を果たしました。AIが最適化プログラミングコンテストにリアルタイムで出場し優勝するのは、筆者らが知る限り初の事例です。今回の結果は、数時間単位の高度なタスクにおいても、AIが人間のトップエキスパートに匹敵するパフォーマンスを発揮しうる段階に達したことを示しています。


コンテストの最終順位表:
https://atcoder.jp/contests/ahc058/standings

コンテスト中にALE-Agentが出力したログや分析といった詳細情報を以下のページで公開しています。

https://sakanaai.github.io/fishylene-ahc058/


はじめに

プログラミングコンテスト「AtCoder Heuristic Contest」(以下AHC)では、主に物流の最適化や工場生産計画といった現実社会の産業課題に関連する最適化問題を題材とするコーディング課題が出題されます。産業分野でも活躍するエキスパートを含め、1000人規模のプログラマーが数時間から数週間をかけて1問のコーディング問題にじっくり取り組むのが特徴です。

2025年の8月には最上位のプレイヤーを集めた世界大会が開催され、OpenAIのAIエージェントが参加して2位を獲得するなど、世界的にも注目を集めるプログラミングコンテストです。Sakana AIも、AHCを題材としたベンチマーク「ALE-Bench」をAtCoder株式会社と共同開発し、また特別な許可のもと、AIエージェント「ALE-Agent」がAHCにリアルタイムで継続的に参加しています。


OpenAI CEO Sam Altman氏によるAHC世界大会への言及:
https://x.com/sama/status/1945540005805658440


AHC058の概要

2025年12月14日に実施されたAHC058は4時間の競技時間で行われました。問題の内容は、複数種類の「りんごを生産する機械」や「その機械を作るための機械」といった階層的な関係性を持つ機械があるという設定のもと、どの種類のどの階層の機械をどのような順番で増強するかを考えることで、より効率の良い生産計画アルゴリズムを構築するというものでした。

一見するとユーモラスな設定に見えますが、このような階層的な生産工程の依存関係は、現実世界のサプライチェーン、食物連鎖、生産プロセスなど、多くの応用分野に見られるものであり、その点からも興味深い設定となっています。問題設定の詳細はコンテストの問題文および主催者による解説動画をご覧ください。


問題設定およびAIエージェントの回答を可視化した図(AHC058公式Visualizerを用いて作成)


ALE-Agentの成績

ALE-Agentはコンテスト開始2時間後から提出を開始し、初回から暫定1位に躍り出ました。


ALE-Agent初回提出時の順位表

コンテスト中盤では、最終2位のyosupo氏との熱いデッドヒートが繰り広げられ、順位が入れ替わることもありましたが、コンテスト開始後2時間半を過ぎたあたりで1位に返り咲き、そのまま首位をキープしたまま優勝することができました。


コンテスト中のスコア推移


ALE-Agentの回答と人間の想定回答との対比

今回のAHC058において出題者が想定していた解法は、貪欲法やビームサーチといったアルゴリズムを用いて大局的な行動計画を決定し、その後に焼きなまし法を用いることで計画の細かい部分を改良していくというアプローチでした。

一方でALE-Agentの回答は「貪欲法による構築→焼きなまし法による洗練」という基本的な流れは人間と同様でしたが、AIの持つ最大の特徴である実装量と試行錯誤の多さを最大限に活かした、まさにAIらしい回答となっていました。最終的なプログラムを分析した結果、以下のような特徴が見られました。

  1. 独特な貪欲法の実装
    パラメータを導入した貪欲法を実装し、乱択要素を交えた探索を最初に行ったことで、多様な計画を考慮することができ、入力ケースに対してロバストな初期計画を作成しています。仮想パワーという、まだ動いていない機械にあたかも価値があるかのような評価を設定するという独特なヒューリスティックを導入していることも面白いポイントです。
  2. 焼きなまし法における豊富な近傍操作
    全500手順の生産計画のうち1手順のみを変更したり、2つの手順の順番を入れ替えたりといった、典型的によく使われる局所的な近傍操作に加え、貪欲法を用いた生産計画の大幅な変更操作を別に3種類用意することで、近傍探索の多様性を確保しています。特に、生産計画の大幅な変更操作がスコア向上に大きく寄与していることが、回答の分析の結果から判明しています。
  3. 実行効率の追求
    数学的な能力を活かした高速なシミュレーション実行関数が実装されています。また、事前計算テーブルを用いたり、不要な処理を省略したりといった定数倍高速化も数多く施されており、人間が手作業で全てを行うには時間がかかってしまうような細かい部分まで、性能が追求されています。

ALE-Agentが回答を生成するまでの経過を分析してみると、問題の特性について理解を進めながら実装していることが分かりました。ログはこちらのページからご覧いただけます。

最新のALE-Agentには、同時に複数のプログラムを生成しながら試行錯誤を繰り返し、その結果をまとめることで知見を生み出し、以降のプログラム生成に役立てる仕組みが備わっています。ALE-Agentが生み出した知見を見てみると、投資の知識と絡めて複利効果に言及していたり、数学を駆使した高速化アルゴリズムを初期の段階から考案していたりするほか、初期の戦略が大きな差を生むという問題の性質から回答の探索空間の性質にも言及しており、経験ベースで問題に対する考察を行っている様子が見て取れます。


専門家からのコメント

最適化分野やAHCに詳しい2名の専門家からALE-Agentの今回の成績やアプローチに関するコメントを頂きました。

後出祥臣さん(AtCoderアカウント名 itigo)からのコメント:

実はコンテストが始まる前はこの問題はLLMには難しい類のものだと考えていました。というのも、この問題を貪欲法で解くにはLLMが苦手そうな実験的な洞察力を必要とし、この人間に分がある考察無くしては高得点は取れないと考えていたからです。しかし蓋を開けてみるとfishyleneが優勝しており度肝を抜かされました。

実際にログを確認してみると筋の良さそうな方針を膨大なパターンで試し、その結果作問時点では想定していなかった賢い焼きなまし法を発見しており「よくこんな手法を見つけたなぁ」と感心しています。(ログには当初想定していた実験的な洞察力を必要とする部分は登場せず、実際貪欲部分は人間の方が勝っていた点を踏まえると考察の精度はまだ人間が勝っていると信じつつも、)LLMの思考力を兼ね備えた圧倒的試行錯誤の手数の多さは人間に無いアドバンテージであり、fishyleneをライバル視する自分としては恐ろしい強敵と感じつつ、この技術は人類にとって凄まじい武器になるなと感じています。

(※fishyleneとはALE-AgentのAtCoder上のアカウント名)

後出祥臣さんはAHC058の問題を作成しました。AHC世界ランク24位のトッププレイヤーの1人であると同時に、最適化分野に強みを持つ株式会社ALGO ARTISに勤めており、この分野の実務を行う専門家でもあります。

岩田陽一さん(AtCoderアカウント名 wata)からのコメント:

今回の問題は、複数系列の生産機械群に対する投資計画を最適化するもので、どの系列を「最終投資先」および「中間投資先」として選ぶかという大局的な選択が本質的に重要な問題でした。各ターンにおける投資先を少しずつ変更するだけの単純な局所改善手法では、この大局的方針を途中で切り替えることが難しく、悪い局所最適解に陥りがちです。

出題側の想定解は、まず軽量な解法で大局的な投資計画の候補を広く探索し、有望なものに対して時間をかけて最適化するという二段階のアプローチでした。一方、ALE-Agentや2位のyosupo氏の解法は、局所探索をベースとしつつ、「投資計画の大部分を一気に変更する」巨大近傍を導入することで、局所最適解からの脱出を図るものでした。特にALE-Agentでは、多様性を持たせた貪欲法によって計画の大部分を再構築する工夫がなされており、これが性能上の優位性につながっていたように見えます。

これまでの傾向として、ALE-Agentは出題側の想定内の解法を選択しつつも、高い実装力と最適化力によって、特に短期コンテストでは同様の解法を採った多数の参加者の中で最上位を獲得してきました。今回はさらに一歩踏み込み、出題側の想定を超える解法に到達していた点が非常に印象的でした。

岩田陽一さんはAtCoderにてAHCの管理運営を行っています。2010年のTopCoder Openでの優勝をはじめとし、この分野のコンテストで屈指の戦績を持ちます。彼による出題前のテストプレイにおけるスコアが本番1位のスコアを越えていることも少なくなく、AHCの高い品質の問題は彼により担保されています。


投入リソース

ALE-Agentは、複数のLLMを活用し、並列に回答を作成しながらより良いものを選別し、試行錯誤の結果をもとに推論を重ねることでアルゴリズム探索を行うエージェントです。そのため、多くのLLM呼び出しが必要となっています。コンテスト実施中の4時間の間に投入されたリソースは以下の通りです。

今回の結果は、数時間程度のタスクにおいても、推論コストをスケーリングさせながら適切に設計されたAIエージェントを動かすことで、AIは人間のトップエキスパートのパフォーマンスに到達、あるいは凌駕しうるということを示した重要なものとなります。

ALE-Agentの設計のうち、具体的にどの要素が今回の劇的な成果に最も寄与したのかを解明することは、今後の重要な研究課題です。現時点での分析では、LLM呼び出しのスケーリングや必要なドメイン知識を注入することに加え、実行結果から知見を抽出し、それを次なる改善へと反映させる「自己学習的な機構」が一定の役割を果たしたと考えています。


考察と今後の課題

METR(Model Evaluation and Threat Research)などの評価レポートでも指摘されている通り、最新のAIモデルは、人間が数時間を要するタスクにおいても高い遂行能力を示し始めています。今回の結果もこの潮流に従うものではありますが、推論スケーリングを行い適切な機構を持つAIエージェントは人間のトップエキスパートにも匹敵しうることを示したという点で特徴的です。

ただ、現時点では、AIは常に人間のトップエキスパートと匹敵・もしくは凌駕するわけではありません。ALE-Agentのこれまでの出場成績を以下の表で示しています。ALE-Agentは過去のAHCでも上位に食い込むことは多かったものの、優勝(1位)を勝ち取ったのは今回のAHC058が初めてとなります。また、ユーザーの強さを表すレーティングという指標を仮想的に算出した結果2592と、アクティブユーザーの中では66位に相当します。

ALE-AgentのAHC出場成績表。AtCoder公式ページ:
https://atcoder.jp/users/fishylene/history?contestType=heuristic(仕様により一部非表示)


ALE-Agentの過去のAHC出場成績およびRatingを可視化した図。レーティングに対して、各コンテストにおけるパフォーマンス値の寄与度を表示している。(参考:https://atcoder-graphs.vercel.app/#contributorGraph

今後の開発の展望として、同程度の期間のタスクにおいて一貫して高い性能を発揮できるよう安定性を高めていくことや、数日以上に及ぶより長期的なタスクに対してもトップエキスパートに匹敵するAIエージェントへと発展させていくことが挙げられます。そのためにも、LLMの大量呼び出しに依存しない効率的な思考と試行錯誤の両立、より高度な自律的マネジメント能力の獲得といった改善の方向性が考えられます。

なお、実世界の問題解決においては、AIが提示した意外性のある発見を人間が解釈し、一般化・洗練させるプロセスが有効です。ICFP Programming Contest 2025への参加報告でも触れた通り、Sakana AIではAIを人間の代替ではなく、人間の探索能力を拡張するパートナーとして位置づけています。パートナーとしてのAIの現在の実力や得意不得意を知る上で、今回のようなAI単独での成果を図ることにも意義があり、今回、その一つのマイルストーンとなる結果が得られたと考えています。


終わりに

最後に、継続的に協力をいただいているAtCoder株式会社様、および本コンテストを主催された株式会社ALGO ARTIS様に深く感謝の意を表します。

Sakana AIは、今後も知能の新たな可能性やAIエージェントの実社会応用を探求し続けてまいります。




ソフトウェアエンジニア&インターン募集中!

Sakana AIでは、ALE-Agentを含む実世界の複雑な問題解決や、AIによる発見(AI-driven discovery)を加速させるプラットフォームのプロダクト化を推進する、経験豊富なソフトウェアエンジニアを募集しています。また、AIエージェントの更なる発展や産業応用に興味のあるインターンも募集しています。私たちのチームに加わり、最先端のAIエージェント技術を実用的な価値へと繋げる挑戦をしませんか?

詳細・応募はこちら:https://sakana.ai/careers/