
Sakana AIは、時間情報を明示的に扱う新しいAIモデル「Continuous Thought machine(CTM)」を発表しました。最先端AIモデルの可能性を追求するAIサイエンティストに代表されるAIエージェント技術や、LLMの小型化・効率化を目指すTAIDといった研究開発を進めているSakana AIは、今回ご紹介するContinuous Thought Machineのように、数年先の新たなAIパラダイムを切り拓く萌芽的かつ革新的な研究にも力を入れています。
Continuous Thought machine(CTM)の主な特徴
- 生物学的な脳に倣った「時間情報」の活用:ニューロン活動のタイミングとその「同期」という、実際の脳にも見られる時間的なダイナミクスを学習に取り入れた新しいAIモデル。
- 非言語的な段階的推論:まるで人間が考えるときのように「ステップを踏んで」思考し、世界の内部モデルを学習することで、単なるパターン認識を超え、迷路のような複雑な問題も段階的に解く能力を獲得。
- 問題に応じた柔軟な計算:推論の際、問題の複雑さに応じて思考ステップの長さを調整可能。
- 思考プロセスの解釈可能性:アテンションのパターンの思考ステップに沿った変化が追跡でき、思考のプロセスが解釈可能に。
CTMは初期段階の研究であり、現行のAIモデルとの比較や、言語データを含むタスクでの検証は今後の課題となります。しかし、CTMは、現在のAIでは活用されていない「時間情報」という生物の知能が持つ側面に着目し、新しいAIモデルの新たなパラダイムを切り拓くものだと考えています。
以下、Continuous Thought machine(CTM)に関するブログ記事の翻訳です。
概要
Sakana AIは、従来の人工ニューラルネットワークとは異なる新たなメカニズムに基づくAIモデル「Continuous Thought Machine(CTM)」を発表します。生物の神経回路から着想を得たCTMは、ニューロン(神経細胞)レベルでの活動のタイミング情報と、ニューロン活動の「同期」を、推論の中核的なメカニズムとして活用します。CTMは複雑な行動や意思決定を可能にし、様々なタスクを効率的に解決できることを実証しました。さらに、CTMは問題に対して段階的に「思考」するため、その推論プロセスは人間にとって理解しやすいという利点があります。この研究は、人工ニューラルネットワークと生物の神経回路網との間のギャップを埋める重要な一歩であり、AIの新たな可能性を拓くものと考えています。
詳細については、インタラクティブレポート、論文、および公開コードをご覧ください。
図:CTMが迷路を解いている様子と、写真について思考する様子(写真の出典:Alon Cassidy)。迷路の解法を教え込んだわけではないにもかかわらず、学習された解法は人間に解釈しやすく、CTMが「思考」しながら迷路内の経路をたどっているのが見て取れる。写真の例では、どこを見るかについてのインセンティブを与えていないにもかかわらず、人のように視線を動かす振る舞いが現れている。
はじめに:AIに時間情報を取り入れる
人間の脳は、現代の最先端AIが苦戦する課題を、往々にして遥かに効率的に処理できます。Sakana AIでは、AIの進歩へのヒントを自然界に求めてきました。例えば、AIモデルの融合(マージ)、言語モデルの記憶メカニズムや人工生命の可能性空間の探索に、生物進化にヒントを得た手法を用いてきました。今日の人工ニューラルネットワークは目覚ましい成果をもたらしましたが、生物の脳との対応はごく抽象的なレベルに止まっています。生物の脳に見られる特徴を取り入れることで、AIの能力と効率を次の段階に引き上げることはできないでしょうか。
私たちは今回、認知機能にとって非常に本質的な「時間」の役割に着目しました。2012年の深層学習(ディープラーニング)の登場によりAIの能力は大きく飛躍しましたが、AIモデルで使われる人工ニューロンの基本モデルは1980年代からほとんど変わっていません。多くのAIモデルでは、依然としてニューロンの活動(発火)の強さを一つの数字で表していますが、そこでは「いつ」ニューロンが活動するのか、というタイミング情報が抜け落ちています。しかし、生物では、このタイミング情報が脳機能において基礎的な役割をもっていることが、多くの研究で知られています(たとえば、スパイクタイミング依存の可塑性:STDPなど)。
タイミング情報を表現するため、今回のモデルでは個々のニューロンが自身の過去の活動履歴にアクセスし、現在の状態だけでなく履歴情報を使って次の出力を計算するよう学習させました。これにより、ニューロンは過去の異なる時点からの情報に基づいて、その活動を変化させることができます。加えて、このモデルでは、ニューロン間の活動の「同期」に着目しました。つまり、各ニューロンはタイミング情報を利用し、互いに同期した活動を生み出すことでタスクを解くように学習します。この仕組みにより、現在のAIモデルよりもはるかに豊かなニューロン活動パターンが生まれ、この多様性が、幅広いタスクを解く能力を引き出す。これが私たちの主張です。
タイミング情報を活用したことで、様々なタスクにおいて、非自明なモデルの振る舞いが見られました。以下にいくつかの結果を示します。特徴は、非常に解釈性が高いことです。例えば、画像認識のタスクでは、CTMは注意深く視線を画像内で動かし、最も目立つ特徴に焦点を合わせます。いくつかのタスクではパフォーマンスの向上も見られました。とりわけ驚きだったのは、ニューロン活動のダイナミクスに見られた多様性でした。
図:CTMで見られるニューロン活動の例。様々な入力に対する変化を表示している。CTMが、非常に多様なニューロン活動を学習していることが見て取れる。各ニューロン(図ではランダムな色で示されている)が他のニューロンと協調して発火する度合いを「同期」と呼び、CTMの内部表現として利用している。
この新しいモデルの特筆すべき挙動は、「ニューロン間の時間的な活動の同期」という、これまでにない情報表現を用いることで現れました。そして、この同期に基づく内部表現は、生物の脳と完全に同一ではないものの、その仕組みにおいてより近似していると私たちは考えています。同期を活用することで、モデルの学習は著しく安定し、より複雑なタスクへの対応も可能になりました。私たちは、このAIモデルをContinuous Thought Machine(CTM:継続思考マシン)と名付けました。CTMは、新しい時間次元、豊かなニューロン活動、そして同期情報を利用して、応答を返す前にタスクについて「思考」し、計画を立てることができます。名前を「Continuous(継続的)」としたのは、CTMは内部の「思考の次元」で継続的に思考するためです。CTMは入力データに対し非同期的に思考し、画像のような静的なデータと、時系列データに対して同様に推論を実行できます。この新しいモデルを広範なタスクで検証した結果、多様な問題を解決可能であり、多くの場合、その解決方法は人間にとって非常に理解しやすいことが明らかになりました。
私たちが観測したニューロン活動は、従来の人工ニューラルネットワークよりもはるかに大きな多様性を示し、実際の脳で見られるダイナミクスにより近いものと言えます。古典的なAIモデルであるRNNとの比較を下に示します。CTMでは、ニューロンが異なる周波数や振幅で振動する様子が見られます。一つのニューロンが複数の周波数の活動を示すこともあれば、タスクを解決している間だけ活動を示すニューロンもあります。強調すべきは、これらの振る舞いはすべて完全に創発的なものであり、モデルに作り込まれたものではないということです。時間情報を導入し、様々なタスクを解けるように学習させた結果、副次的に現れたものなのです。

図:CTMでのニューロン活動(左)と、古典的なニューラルネット(RNN)でのニューロン活動(右)。
CTMモデルのテスト
CTMの大きな利点の一つは、新たな時間次元が加わったことで、CTMが時間経過とともに問題をどのように解決しているかを観察し、可視化できる点です。従来のAIシステムがニューラルネットワークを一回の推論で画像分類するのに対し、CTMは複数のステップを踏みながらタスクの解法について「思考」します。CTMの性能と解釈可能性の例として、以下に2つのタスクを紹介します。インタラクティブレポートと論文では、さらに多くのデモンストレーションを行っています。
迷路タスク
これは、与えられた二次元の迷路に対し、ゴールまでの道筋を求めるタスクです。このタスクでは、モデルは迷路の構造を理解し、解法を計画する必要があります。CTMはその特徴である「思考」のステップによって計画を立てることができ、しかも各ステップで迷路のどの部分に注目しているかを可視化できます。驚くべきことに、CTMは非常に人間らしいアプローチを学習します。実際に、そのモデルのアテンション(注意)が迷路内の経路をたどっている様子を確認できます。
図:CTMは、アテンション(注意機構)を使って迷路の状況を観察し、そして次に進む方向を生成して迷路を解く。アテンションは、ニューラルネットワーク内部の活動における同期現象を利用して作られる。AIのアテンションが、迷路の正解ルートをたどっていることに注目。このように、CTMは解釈可能性が高いアプローチである。[インタラクティブレポート]には、迷路タスクを解く様子のインタラクティブなデモがある。
この振る舞いで特に印象的なのは、それがモデルの構造(アーキテクチャ)から自然に出てくる点です。私たちはCTMが迷路の経路をたどるように明示的に設計したわけではありません。CTMは学習を通じて自らこのアプローチを発展させるのです。しかも、より多くの思考ステップを許した場合、CTMは学習時に指示されたよりも遠いゴール地点にも対応できることがわかりました。このことは、CTMが迷路タスクに対する汎用的な解法を学習できたことを示しています。
画像認識
ImageNetは古典的な画像分類のベンチマークであり、2012年の深層学習革命の発端にもなったものです。従来の画像認識システムは一回の推論で分類を決めますが、CTMは答えを出す前に画像の異なる部分を調べるために複数のステップを踏みます。この段階的なアプローチは、AIの振る舞いをより解釈しやすくするだけでなく、精度の向上にもつながります。思考時間が長くなるほど、答えはより正確になるのです。また、CTMは単純な画像に対しては思考時間を短縮し、省エネを実現できることもわかりました。たとえば、以下のようにゴリラを識別する際、CTMのアテンションは、人間の視覚的注意と同様に、目から鼻、そして口へと移動します。
図:CTMが画像分類を行う際の挙動の例。ヒートマップは、CTMが画像を処理する際にどの領域に注意を向けているかを表し、矢印はその注意の中心を示す。他の多くの例はインタラクティブレポート参照。
このアテンションのパターンは、モデルのリーズニングの過程を可視化し、分類においてどの特徴が最も重要だと判断しているかを示してくれます。この解釈可能性は、モデルの決定を理解するためだけでなく、潜在的なバイアスや失敗しやすいパターンを特定し、対処するためにも役立つものです。
おわりに:AIと神経科学の協働へ
現代のAIは「人工ニューラルネットワーク」という点で脳に倣っていますが、AI研究と神経科学の連携は、今日においても驚くほど限定的です。AI研究者は、そのシンプルさ、効率的な学習能力、そしてAIの発展に貢献してきた実績から、1980年代に開発された比較的シンプルなモデルを選択する傾向があります。一方、神経科学はより精密な脳モデルの構築を目指していますが、その主な目的は脳の理解であり、必ずしも高性能な知能モデルの創出を意図しているわけではありません(もちろん、優れた性能を発揮する可能性も否定できません)。神経科学由来の脳モデルは、その複雑性を増しているにもかかわらず、現在の最先端AIモデルの性能には及ばないことが多く、AI研究における魅力的な対象とは言えないのが現状です。
しかし、私たちは、現代のAIをいくつかの側面で脳の仕組みに近づける努力を続けないことは機会損失であると考えています。そのアプローチによって、現在よりもはるかに高性能で効率的なモデルが見つかる可能性があるからです。2012年のいわゆる「深層学習革命」は、脳に着想を得たモデルであるニューラルネットワークによって起こりました。この進歩を続けるために、私たちは脳からインスピレーションを受け続けるべきではないでしょうか。CTMは、AI研究と神経科学のギャップを埋めようとする私たちの最初の試みです。CTMにより、脳に近い振る舞いを示しつつ実用的なAIモデルを作りうる、その兆候を見出すことができました。
私たちは、この生物に学ぶアプローチのモデルを進化させ続け、どのような新しい能力が現れるかを探求していきます。さまざまなタスクにおけるCTMの振る舞いのより詳細な例については、インタラクティブレポートをご覧ください。CTMのアーキテクチャと実装に関する完全な詳細は、論文と公開コードにあります。AI研究や神経科学のコミュニティの皆さんにも、ぜひこの生物学と計算科学が重なる領域の探求にご参加いただきたく思います。両分野の協力により、人工ニューラルネットワークの実用的な利点を維持しつつ、生物知能の驚くべき能力を捉えたAIシステムを開発していくことができるはずです。

Sakana AI
日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。