江戸時代の古文風テキストで会話できるチャットボット「からまる」を公開:過去の書物の継続学習による大規模言語モデルの開発


「からまる」はSakana AIが開発した江戸古文風チャットボットです。現代日本語で質問すると、江戸時代の世界観と当時の古文風テキストで回答してくれます。学術プロジェクトと協力して、江戸時代の書物から約2500万文字のデータセットを構築し、大規模言語モデルを継続学習しました。からまるのデモはこちらでお試しいただけます。


概要

Sakana AIは、江戸時代の古文風テキストで会話できるチャットボット「からまる」を公開します。現代のテキストを学習した大規模言語モデル(LLM)に対して、江戸時代の書物など数千点以上から構築した江戸テキストデータセットを継続学習させることにより、現代日本語で質問すると江戸時代の古文風テキストで回答できるチャットボットを開発しました。回答の内容には江戸時代の世界観が反映されているため、過去の文化への没入感がより高い会話を楽しめるようになりました。

このリリースの要点は以下の通りです。

「からまる」は、研究及び教育を目的に、HuggingFaceサイトにてモデルを公開しています。またデモも公開していますので、ぜひお試しください。

Karamaru v1 モデルデモ


からまるのデモはこちらでお試しいただけます。


はじめに

江戸時代は多くの人々に書物が普及した時期でした。学問や宗教のための学術書だけでなく、読書を楽しむ小説などの文学書や、生活に役立つ料理、農業、医療、旅行などの実用書、災害を受けた社会の記録など、多彩なジャンルの書物が出版されました。江戸時代の出版人蔦屋重三郎を主人公とする2025年のNHK大河ドラマ『べらぼう』は、江戸時代の出版業界が様々な書籍を世に送り出し、人々を楽しませている様子を描いています。こうして生まれた膨大な書物は、江戸時代の言葉や暮らし、思想を今に伝える貴重な文化遺産となっています。

しかし過去の文化遺産は、現代に生きる私たちからは縁遠い存在となりがちです。それを再び身近なものにするために、大規模言語モデルはどのように使えるでしょうか。現代の大規模言語モデルは多言語を扱う能力を備えていますが、英語を中心に学習しているため、学習データの規模が小さい古文を扱う能力は限られています。このように、学習データ等のリソースが少ない言語に対する大規模言語モデルの能力を強化し、文化の再生につなげていくことは、技術的にも文化的にも意義が深い課題です。そこで、江戸時代の古文を集中的に学習させることで、江戸時代の古文に強いチャットボットを作ってみることにしました。

最初に行ったのが、江戸時代の書物の「翻刻」、すなわち現代の文字を用いたテキスト化です。そして、人間による翻刻とAIによる翻刻とを合わせ、約2500万文字の江戸テキストデータセットを構築しました。この文字数は、大規模言語モデルの学習データセットとしてはそれほど大きなものではありません。そこで、規模が小さなデータセットでも効率的に学習できるよう、日本語に特化した大規模言語モデルに対して継続学習を行うことにしました。その成果として誕生したのが江戸古文風チャットボット「からまる」です。

「からまる」のユニークな魅力は、表層的に古文風テキストを生成できるだけでなく、その内容が江戸時代の世界観を反映しているように見える点にあります。「からまる」は、江戸時代の人々が送っていた生活や接していた情報などを当時の書物から学んでいるため、会話からは江戸時代の雰囲気や文化の記憶を感じることができます。一方「からまる」は、ベースとして用いた大規模言語モデルが学習した現代の知識も記憶しているため、江戸時代には存在しなかった事物についても回答できます。しかしその際にも、当時からあった言葉をなんとか組み合わせて説明しようとしますし、その制約の中から生まれる独特な表現にはしばしば驚かされます。


「からまる」との会話

以下に「からまる」との会話例をいくつか示します。助動詞については時々まどろっこしい表現が見られますが、全体として大きな問題は生じていません。なお、「からまる」の学習データは大半が書籍に由来するため、回答は当時の話し言葉よりも書き言葉に近いものとなります。また、「からまる」の学習データには句読点が含まれていないテキストが多いため、回答には句読点がありません。


江戸時代にはなかった事物について質問しても、古文風テキストで回答してくれます。



「からまる」自身に関する質問にも回答できます。



回答を現代日本語や英語に翻訳することもできます。


江戸テキストデータセットの構築

「からまる」の学習には江戸時代の書物から構築したテキストデータセットを利用します。このデータセットの構築には、以下の3つの学術プロジェクトが大きく貢献しています。

第一に、市民参加型の翻刻プラットフォーム「みんなで翻刻」です。これは、市民ボランティアが歴史的資料を読んで翻刻し、その結果をウェブサイトで共有できるプラットフォームです。ここで翻刻された江戸時代、明治時代、昭和時代などの資料の中から、江戸時代の書籍を中心に瓦版や手紙などを含む2901点を翻刻したテキストデータ約1200万文字を利用しました。

第二に、国文学研究資料館の「日本語の歴史的典籍の国際共同研究ネットワーク構築計画(略称:歴史的典籍NW事業)」(2014-2023)です。この事業の完了によって、約30万点に達する古典籍のデジタル画像が国書データベースで公開されるようになりました。

第三に、ROIS-DS人文学オープンデータ共同利用センター(CODH)です。CODHは、国文学研究資料館のデジタル画像の一部を日本古典籍データセットとして、また古典籍に含まれるくずし字の字形を日本古典籍くずし字データセットとして公開しています。ここには人間が翻刻したテキストデータ約100万文字が含まれており、これを利用します。しかしそれ以外の古典籍の大部分は未翻刻資料であり、人間が翻刻したテキストデータは入手できません。そこで、AIくずし字OCRモデルRURIを利用して、江戸時代の書籍1001冊からテキストデータ約1200万文字を翻刻しました。ただし、AIくずし字OCRの結果は誤りを含んでいるため、Sakana AIが開発したくずし字OCR修正モデル「OCR Refiner」を利用して、OCRテキストの精度向上を図りました。

以上の方法により、人間が翻刻した約1300万文字、AIが翻刻した約1200万文字を合わせて、合計約2500万文字の江戸テキストデータセットを構築しました。


「からまる」の特徴

限られたデータサイズに対して効率的に学習するために、大規模な日本語テキストで学習された事前学習モデルから継続学習を行いました。ベースモデルとしては、株式会社ELYZAが公開するオープンモデル Llama-3-ELYZA-JP-8B を用いました。このモデルに対して、江戸テキストデータセットを継続学習することで、古文風テキストの生成能力を獲得できました。なお、江戸テキストデータセットは会話フォーマットではありませんが、継続学習の過程でベースモデルの会話能力を維持できたため、知識を獲得した上で会話も可能なモデルとなりました。

過去のことについて回答できるチャットボットには、一般に検索拡張生成(Retrieval Augmented Generation)という方法が用いられています。これは、過去の書物のデータベースからテキストを検索し、その内容に基づき既存の大規模言語モデルで回答を生成するという方法です。しかしこの方法には、1) どんな質問に対しても適合するテキストを見つけ出すことが難しい、2) 江戸時代の古文風テキストを生成することが難しい、という問題があります。後者については、最先端の大規模言語モデル(OpenAIのGPT-4oなど)に「江戸時代の日本語で答えて下さい」というプロンプトを与えても、内容は現代のままで語尾だけを古文風に変えたテキストしか生成できません。

これに対して「からまる」は、大規模言語モデルの継続学習という方法を利用しているため、江戸時代の世界観を反映するという内容の面でも、江戸時代の古文風テキストを生成するという形式の面でも、一貫性を保った回答が可能となりました。これにより、過去の文化への没入感がより高い会話を楽しめるようになりました。

山東京伝作、歌川豊国画『箱入娘面屋人魚』、国立国会図書館デジタルコレクション。画像中央の人物は蔦屋重三郎であり、画像左下に「蔦唐丸」という名前が見える。

なお「からまる」という名前は、江戸時代に活躍した版元・蔦屋重三郎が戯作を制作する際に、「蔦唐丸(つたのからまる)」と号していたことに由来します。「からまる」が江戸時代の書物を学習した大規模言語モデルであることを踏まえ、江戸時代を代表する出版人にちなんだ命名としました。また「からまる」という名前は、大規模言語モデルが膨大な数の単語や概念が複雑に「絡まる」テキストを学習していることも表しています。

今回リリースしたモデル「からまる」は最初のバージョン(Llama-3-Karamaru-v1)です。今後は、さらに大規模かつ多種のテキストを学習させたモデルの公開も検討しています。

国文学研究資料館 山本和明教授のコメント:

『つれづれ草』第 13 段の一節に「ひとり灯(ともしび)のもとに文(ふみ)を広げて、見ぬ世の人を友とするぞ、こよなう慰むわざなる」という文章があります。「文」は漢字で記された書物のこと、「見ぬ世の人」は、私たちの見知らぬ、ずっと昔の人の意味です。いにしえの書物のなかには、数多くの先人の知恵が残されています。そうした書物を読むには、現代の私たちにはハードルがありました。ひとつはいわゆる「くずし字」。これも100万文字の字形データが公開され、多くの人がくずし字解読のシステムを創ってくれたお蔭で、そのハードルはかなり低くなりました。文理融合の成果の一つです。もう一つは大量に残された書物群と文章の難解さ。日常の言葉との乖離から、なかなか専門の研究者以外には読もうともしないものとなりました。江戸時代の木版印刷本から明治時代の活字本、そして現代のデジタル本という、書物の形式の変化のなかで、内容の善し悪しに関わらず、捨て去られた数多くの書物のなかには、現代だからこそ、読んでほしいものも多数あります。とはいえ、現代社会は忙しすぎる。

そこに登場したのが「からまる」です。江戸時代の書物数千点を継続学習したというのですから驚くほかありません。チャットボットを利用すること、絶妙なチューニングの結果、「江戸」的発想をする「からまる」との間に会話が成立しています。時には書物を推薦してくれたり、時には先人ならではの発想で回答してくれたりする。思いもかけない回答からヒントを得ることもあるはずです。この会話のなかから、力強い「見ぬ世の友」を獲得できたと思えたならば、日本の古典文化の再生や新たな活用の可能性を担う一員が増えたとして間違いないでしょう。「からまる」のもたらす相乗効果への期待が大きく膨らんでいます。


今後の展開

「からまる」は江戸時代の古文を学習したチャットボットとして、様々な可能性を秘めています。研究への利用としては、大規模言語モデルとしての能力を活用したテキスト検索、機械翻訳、テキスト分類など、古文に関する様々な研究に使える可能性があります。また、分野に特化した大規模言語モデルの構築という観点では、数千万文字規模のデータセットの継続学習でも有用な成果を出すことができた事例と見ることもでき、他の分野における同様のニーズへの展開にも可能性があると考えています。

一方、教育においては、「からまる」との会話は、江戸時代らしさとは何かを考える材料になりますし、歴史に関する興味を増すことにもつながります。「からまる」の回答は、内容的・文法的に見て正確ではないこともありますが、各種資料にあたってその内容を確認していく過程を経て、過去の文化に関する理解を深めることもできるでしょう。

何より、現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難です。そうした困難を克服できるAIならではの機能を実現した「からまる」が、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待します。


開発者


協力者


Sakana AI

日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。