2025年3月、私たちは「AI CUDA Engineer」の初期成果における評価手法の不備とその原因について報告しました。特定の条件下でベンチマークを「バイパス」してしまう脆弱性が含まれており、真の最適化性能を正しく測定できていないという問題がありました。私たちはこの件を重く受け止め、その後数ヶ月にわたり、LLMによるコード最適化を正しく評価するための解析と手法の再構築を行ってきました。
その成果をまとめた論文を2025年9月にプレプリントとして公開しました。
同プレプリントは、現在、外部査読中ですが、下記のとおり、進捗報告として共有いたします。
robust-kbenchの開発と検証結果
元のKernelBenchに存在した「本質的ではない手法(チート)で高速化を擬態できてしまう抜け穴」を塞ぐため、より堅牢なベンチマークである robust-kbench を開発しました。
この新しいベンチマークを用いて再検証を行った結果、LLMによるCUDAカーネル最適化のパフォーマンスは以下の通りとなりました。
| 指標 |
初報時 (KernelBench) |
今回の再検証 (robust-kbench) |
| 平均高速化倍率 |
3.13倍 (最大10-100倍を含む) |
1.49倍 |
高速化倍率の平均値は、当初発表した3.13倍から1.49倍へと減少しましたが、厳格な条件下においてもLLMがCUDAカーネルの有意な最適化を達成できるという事実は、改めて確認することができました(詳細はプレプリントをご覧ください)。
私たちの初報に対し、技術的な指摘をくださった皆様に深く感謝いたします。いただいたフィードバックをもとにベンチマークの脆弱性に対応した robust-kbench を開発し、より堅牢な評価への一歩を踏み出すことができました。本取り組みが、今後CUDAカーネル最適化に取り組む開発者の皆様の一助にもなれば幸いです。プレプリント結果については、今後、査読を踏まえた修正などのアップデートがあればご報告します。
急速に発展するAI技術のベンチマーク構築は、常に新たな課題への対応が求められる作業です。 今後もその改善を続けるとともに、コミュニティの皆様と対話をしながら、信頼できるカーネル生成技術の実現に向けて取り組んでまいります。