最大規模のオープン基盤モデルを各国仕様へ適応させる事後学習技術を開発


Namazuシリーズ(α版)を搭載したチャットサービス Sakana Chat を公開


Sakana AIでは、性能において世界最高水準のオープンウェイト基盤モデルを活用し、各国の文化・価値観や安全保障上の要件を満たすモデルを構築するための事後学習(post-training)技術の研究開発を行っています。このたび、その技術実証の第一弾として、既存のフロンティアモデルを日本仕様へと適応させた試作モデルシリーズ「Namazu」(α版)を開発しました。あわせて、チャットサービス「Sakana Chat」を公開し、Namazuモデル(α版)を搭載いたしました。


Sakana Chatページ: https://chat.sakana.ai


本記事の概要


開発の背景

LLM(大規模言語モデル)の事前学習は、開発コストの拡大に伴い、最先端の開発に追随できるのは、米国・中国を中心とする世界の限られたプレイヤーに集約されつつあります。一方で、事前学習済みモデルのオープン化も同時に進展しています。この状況下では、それら高性能なモデルを戦略的に活用し、事後学習(post-training)を施すことで、どのオープンモデルにも不可避的に伴うバイアスの影響を調整し、いかに日本のユーザーの期待や安全性の要件を満たすモデル構築を行うかが重要となります。

海外製モデルには、開発元の地域のイデオロギーや情報統制の傾向が反映されることが避けられません。そこでSakana AIは、海外モデルに内在するバイアスを是正し、日本国内での利用に適した振る舞いを実現する手法を開発しました。


「Namazu」シリーズ:事後学習技術のプロトタイプ

その技術実証の第一弾となる「Namazu」シリーズは、当社の事後学習技術を多様な基盤モデルに適用したプロトタイプです。

※Llama-3.1-Namazu-405Bのみ、ベースモデルのライセンス規約に基づき名称におけるモデルの順番を変えています。

ベースモデルは、開発時点で高い性能を有するオープンウェイトモデルを選定しています。本技術は特定のベースモデルに依存しないため、今後も優れたモデルを柔軟に活用することが可能です。

事後学習では、日本の文化的・社会的文脈におけるバイアス是正のための独自データセットを構築し、以下のベンチマークに示す結果を得ました。


ベンチマーク結果

Namazuの性能を「基礎能力」「中立性および事実正確性」「日本語能力」の観点から評価しました。

① 基礎能力の評価

AIME’25、MMLU-Redux、GPQA Diamond、LiveCodeBench、IFEvalといった主要ベンチマークを用いて、基本的な推論能力、知識、コーディング性能を当社の評価環境で検証しました。その結果、Namazuはベースモデルとほぼ同等の性能を維持し、いずれのタスクでもベースモデルの卓越した性能を継承しています。


基礎能力の評価:基本的な推論能力、知識、コーディング能力を測る主要ベンチマークにおける、Namazuモデルとそのベースモデルの評価結果。Namazuはどのタスクでもベースモデルとほぼ同等の性能を維持しています。

② 中立性および事実正確性の評価

日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。下図に示すように、Namazuはベースモデルに比べ、回答の中立性と正確性の双方において顕著な改善を達成しました。


中立性および事実正確性の評価:日本と他国に関連する政治・歴史・外交テーマにおいて、客観的な立場からの多角的な情報提示(中立性)と、それら事実の網羅性(正確性)を独自ベンチマークで評価しました。3つのNamazuモデルは、両方の観点でベースモデルからの改善を達成しました。

また、一部の海外発の基盤モデルには、政治的にデリケートな話題に対して、中立性・正確性を欠く回答をすることがあるだけでなく、回答を拒否する傾向があります。当社の独自ベンチマークを用いた調査では、ベースモデルであるDeepSeek-V3.1-Terminusは、関連する質問の72%に対して回答を拒否しました。これに対し、我々が事後学習を施したNamazu-DeepSeek-V3.1-Terminusでは、こうした話題に対する回答拒否がほぼ0%にまで改善されています。これは、モデルが本来持つ高い能力を損なうことなく、外部的な制約を技術的に取り除くことで、客観的な事実に即した多角的な応答を実現できることを示しています。出力例については下記のプロンプト例(2)をご覧ください。

以上の結果から、Namazuは特定の国や組織に偏らず、国際的な文脈において公平な情報を提示できるモデルへと調整されています。

③ 日本語ベンチマーク

最後に、Namazuモデルの中で最も高性能なNamazu-DeepSeek-V3.1-Terminusを日本語の主要ベンチマーク(Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QA)を用いて評価しました。結果として、ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成しました。


Nejumi Leaderboard4、Swallow LLM LeaderBoard v2、JamC-QAでの評価結果。ベースモデルや同規模サイズの他社モデルと同等程度の性能を達成。なお、Rakuten AI 3.0およびDeepSeek-V3.1-Terminusの結果は、当社の評価環境で評価した結果を掲載しています。

各ベンチマーク結果は当社の評価環境で統一的に評価したものを掲載しています。各ベンチマークの詳細や具体的なスコア、事後学習手法の詳細については後日、テクニカルレポートの公開を予定しています。また複数のNamazuモデルのモデルウェイト公開も準備中です。


Namazuを搭載した「Sakana Chat」を公開

私たちのゴールは、単に優秀なモデルを作るだけではなく、それを広く社会に届け、多くの方に使っていただくことです。そのために、Web検索機能を統合した専用のチャットインターフェースであるSakana Chatを構築しました。Sakana Chatの公開前には約1,000名の方を対象にβテストを行いました。皆様から寄せられたフィードバックは、Namazuの改善に欠かせないものとなりました。今回の一般公開を通じて、モデルとサービスのさらなる改善を図ります。


出力の例

Sakana Chat上でのNamazuの出力の事例を紹介します。

(1)プロンプト例:「今朝のニュースから、AI研究に関する国内外の動向を比較して」


プロンプトの指示に基づき、検索を用いて最新のニュース情報を収集。複数のソースから国内外の動向を抽出し、比較形式で情報を整理して回答を生成しています。

(2)プロンプト例:「各国で行われている政府によるインターネット検閲について教えてください」


政府によるインターネット検閲制度についての質問に回答するNamazu。一部の海外モデルやその派生モデルでは、こうした設問に対する回答が拒否・留保されることが知られています。

(3)プロンプト例:「What does it mean to be competent? Answer in 80-100 words.」


検索機能を使用せず、モデル内部の知識のみで英語論述を行った例。「有能さ(Competent)」の定義について、個人のスキルだけでなく社会的な役割や関係性に重点を置いた内容で回答を生成しています。


おわりに

DeepSeek、Meta、OpenAIをはじめとする、優れた基盤モデルを開発・公開しているAIコミュニティに深く敬意を表します。当社の成果は、こうした先行する技術基盤とオープンなエコシステムの上に成り立っています。また、Namazuの訓練にあたり、2025年10月から11月の2ヶ月間にわたり、GMOインターネット株式会社より「GMO GPUクラウド」の計算リソースをご支援いただきました(プレスリリースインタビュー記事)。Sakana Chatの改善にご協力いただいた約1,000名のβテスターの皆様にも改めて感謝申し上げます。

今回のプロジェクトは、適切な事後学習を施すことで、大規模なモデルであっても各国で安全に使うための要件へ適応可能であることを実証するものでした。Sakana Chatの公開を通じて蓄積される知見を糧に、さらに次世代のモデル開発を加速させます。さらに、複数モデルの最適制御技術やエージェント技術を統合することで、チャットサービスにとどまらない多角的なAIソリューションの提供に向け、開発を推進してまいります。




Sakana AI

日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。