KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI

(*日本語は英文の後に)


Can a speech AI think deeply without pausing to process?

We’re excited to introduce KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI, accepted at ICASSP2026! 🐢

In real conversation, we don’t wait until we’ve fully worked out what we want to say—we start talking, and our thoughts catch up as the sentence unfolds.

Fast speech-to-speech models achieve this, but their reasoning tends to stay shallow. Cascaded pipelines that route through a knowledgeable LLM are smarter, but the added latency breaks the flow—they fall back to “think, then speak.”

In our new paper, we propose a way to break this trade-off. We call it KAME (Turtle in Japanese).

A speech-to-speech model handles the fast response loop and starts replying immediately. In parallel, a backend LLM runs asynchronously, generating response candidates that are continuously injected as “oracle” signals in real time.

This shifts the AI paradigm from “think, then speak” to “speak while thinking.”

The backend LLM is completely swappable. You can plug in GPT-4.1, Claude Opus, or Gemini 2.5 Flash depending on the task without changing the frontend. In our experiments, Claude tended to score higher on reasoning, while GPT did better on humanities questions.



Japanese

音声AIの素早さと賢さを両立できるか?

私たち人間は会話の中で、言いたいことを全部まとめてから話し始めるのではなく、話しながら考えを整理していきます。応答の速い Speech-to-Speech モデルは、この「話しながら考える」を実現しましたが、そのぶん思考が浅くなりがちです。かといって知識豊富な LLM を挟むカスケード型では、遅延が生じるため「話しながら」が成立しません。

そこで Sakana AI は、このトレードオフを克服するKAMEモデルを開発しました。Speech-to-Speech モデルが高速な応答ループを担当し、即座に話し始めます。その裏でバックエンドの LLM が非同期に推論を進めて応答候補を生成し、それをオラクル信号としてリアルタイムに注入します。これにより「考えてから話す」ではなく「話しながら考える」ことが可能になります。

バックエンドの LLM は差し替えが可能で、タスクに応じてGPT-4.1、Claude Opus、Gemini 2.5 Flashなどを使い分けられます。フロントエンド側の変更は必要ありません。私たちの実験では、Claudeは推論系のタスクで、GPTは人文系のタスクで、それぞれ高いスコアを出す傾向が見られました。

本研究は ICASSP2026 で発表されます。 ぜひ、お試しください。