今回公開するモデルは、プロンプトから画像を生成するEvo-Ukiyoeと、古典籍の挿絵をカラー化するEvo-Nishikieモデルです。これらのモデルが、歴史や文化を学ぶための新たなコンテンツ作成に利用され、浮世絵に関する興味を増すことにつながり、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出すことを期待しています。
概要
Sakana AIは、日本の美を学んだAIとして、浮世絵風画像生成モデルEvo-Ukiyoeと、浮世絵カラー化モデルEvo-Nishikieを公開します。Sakana AIが進化的モデルマージによって構築した日本語対応画像生成モデルEvo-SDXL-JPを基盤とし、浮世絵画像を大規模に学習することで、日本語に対応し、かつ浮世絵の特徴を学んだ画像生成モデルができました。
このリリースの要点は以下の通りです。
-
Evo-Ukiyoeは、日本語のプロンプトを入力すると浮世絵風の画像を生成します。風景や着物姿の人々など、浮世絵によく取り上げられる題材については、実物の浮世絵に近い品質で生成できます。
-
Evo-Nishikieは、単色摺の浮世絵(墨摺絵等)を入力すると、多色摺の浮世絵(錦絵)風の画像を生成します。墨一色で印刷された江戸時代の本(古典籍)の挿絵をカラー化したり、多色摺の錦絵を別の色に変換して出力したりする目的にも利用できます。
-
Evo-UkiyoeとEvo-Nishikieの学習データセットには、立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品のデジタル画像24,038枚を利用しました。
-
Evo-UkiyoeとEvo-Nishikieが、日本の伝統文化の魅力を世界に広めるとともに、教育などへの活用や古典籍の新しい楽しみ方など、多くの人々に活用されることを期待しています。
Evo-UkiyoeとEvo-Nishikieは、研究および教育を目的に、HuggingFaceサイトにてモデルを公開しました。またデモも公開していますので、是非お試し下さい。
はじめに
浮世絵は日本を代表する美術の一つであり、世界的にも知名度が高く人気があります。そのため、画像生成モデルの世界でも、多くの人々が浮世絵風画像の生成に取り組んできました。しかし、既存の画像生成モデルは浮世絵に重点を置いた学習を行っていないため、プロンプトに「浮世絵(Ukiyoe)」と入力しても、日本的要素を含むイラストレーション風の画像など、あまり浮世絵らしくない画像が生成されてしまいます。そこで、実際の浮世絵により近い画像を生成できるよう、日本の伝統的な要素や色彩を反映した画像生成モデルの構築に取り組みました。
そのために最も重要なのがデータセットです。AIが浮世絵について学ぶには、高品質かつ高精細の大規模な浮世絵データセットが不可欠です。そこでSakana AIは、立命館大学アート・リサーチセンター(ARC)のセンター長である赤間亮教授のご協力をいただき、ARC所蔵浮世絵作品のデジタル画像の中から、多色摺の錦絵の中でも色合いが美しいものを中心に、多様性も考慮して幅広い題材の浮世絵を選定しました。そして全体画像および顔中心画像を合わせて24,038枚の画像を選定した浮世絵データセットを構築しました。
この浮世絵データセットを学習した画像生成モデルがEvo-UkiyoeとEvo-Nishikieです。Evo-Ukiyoeはプロンプトから画像を生成しますが、Evo-Nishikieは古典籍の挿絵をカラー化するために、挿絵から作成した条件画像とともに、画像の内容を簡単に説明するプロンプトを入力します。
なお、Evo-Ukiyoeという名前は、進化的モデルマージで構築されたEvo-SDXL-JPの「Evo」と「浮世絵(Ukiyoe)」をつなげたものです。一方、Evo-Nishikieは、単色の画像を多色摺(カラー印刷)の「錦絵(Nishikie)」に変換するという目的にちなんで名づけました。
Evo-Ukiyoe
Evo-Ukiyoeで生成した画像
Evo-UkiyoeはText-to-Imageモデルであり、画像データとキャプションのペアを学習データセットとします。そこで、浮世絵画像の内容を説明するキャプションを付与するために、大規模マルチモーダルモデルを用いて、Few-shot promptingによりキャプションを生成しました。そして、キャプションの間違い(人物の性別など)を人手で修正するとともに、Evo-SDXL-JPの最大プロンプト長(77トークン)に合わせて、キャプションを短くする、明確な特徴のみを加える、鳥籠模様や梅花模様などの複雑な専門用語を削除する、などの調整を行いました。
この学習データセットを用いて、Evo-SDXL-JPをベースモデルとして、LoRAによるファインチューニングを行いました。
生成時には、プロンプトを入力して画像を生成します。ただし、浮世絵により近い画像を生成するには、桜、富士山、着物、鳥など、浮世絵でよく取り上げられる要素をプロンプトに含めると効果的です。一方、江戸時代に存在しないもの(パソコンやハンバーガーなど)も生成はできますが、学習データセットに存在しないものを浮世絵風に生成することは難しく、全体として浮世絵らしくない画像が生成されることがあります。
Evo-Nishikie
Evo-Nishikieのカラー化結果:元の画像(ARC所蔵)およびEvo-Nishikieでカラー化した画像(3枚)
Evo-NishikieはImage-to-Imageモデルであり、プロンプトと条件画像のペアを学習データセットとします。まずプロンプトについては、「この画像をカラーにしてください」といった簡潔な固定プロンプトを全画像に適用しました。学習時に複雑なプロンプトを用いず簡潔な固定プロンプトを用いることで、タスクが容易になり精度がより良くなりました。次に条件画像については、元の画像の情報をある程度保持しながらクリエイティブに生成する余地を残すLineartを用いました。ただし、浮世絵画像には虫食いやシミ、劣化などが含まれるため、ノイズ処理が必須となります。そこで、ControlNet-AuxライブラリーのLineartDetectorを適用し、OpenCVによるノイズ除去を行い、2値化で元画像の濃淡情報を除去するという手順で、条件画像を作成しました。
この学習データセットを用いて、Evo-Ukiyoe(Evo-SDXL-JP+LoRA)をベースモデルとして、ControlNetの学習を行いました。
生成時には、元となる画像を指定すればカラー化は可能です。ただし、より美しくカラー化するには、生成したい色や対象物に関する具体的な指示をプロンプトに含めると効果的です。
結果
Evo-Ukiyoe
Evo-Ukiyoeモデルの生成結果をいくつか示します。なお、プロンプトに含まれる「輻の浮世絵」は、学習時に用いたspecial tokenです。
プロンプト:「植物と花がある。蝶が飛んでいる。最高品質の輻の浮世絵。」
プロンプト:「鶴が庭に立っている。雪が降っている。最高品質の輻の浮世絵。」
プロンプト:「着物を着ている猫が庭でお茶を飲んでいる。最高品質の輻の浮世絵。」
このように、桜や富士山、着物を着た人物、鳥など、Evo-Ukiyoeが得意とする要素をプロンプトに含めると、より浮世絵に近い画像が生成できます。一方、Evo-Ukiyoeの課題の一つに「人物」の生成があります。例えば「男性」をプロンプトに入れても、女性の着物や髪型を生成してしまうことがあります。この場合、男女をより明確に区別するため、プロンプトに「男性」を入れ、ネガティブプロンプト(除去したい要素のテキスト)に「女性」を加えると効果的です。
生成画像で特に注目すべきは、線の質感や色のグラデーションです。浮世絵は木版印刷のため、肉筆画などに比べると線が明確に出ることが一つの特徴ですが、Evo-Ukiyoeの生成画像にも線が出ています。また、実物の浮世絵には美しいグラデーションが使われていますが、Evo-Ukiyoeの生成画像にも似たようなグラデーションが出ています。さらにEvo-Ukiyoeの生成画像は構図としてもバランスがよく、空白がうまく活用されているように見える画像もあります。
浮世絵とは木版印刷の技法を用いて和紙に印刷した版画であり、紙のテクスチャーや印刷のむら、色のグラデーションなどは一点ごとに異なります。さらに、江戸時代から現代まで保存する過程では、虫食い、劣化、シミなども生じます。このような現実の浮世絵に存在する多様性をAIは学習しています。さらに、色の組み合わせ、作品の構図(コンポジション)、浮世絵特有の人物のしぐさや顔の表情など、浮世絵に描かれた日本の美もAIは学習しています。浮世絵に関する様々な要素を繰り返し学習することで、Evo-Ukiyoeは多様な題材に対応した浮世絵風画像を生成できるようになりました。
Evo-Nishikie
Evo-Nishikieモデルの生成結果をいくつか示します。
元の画像(ARC所蔵)およびEvo-Nishikieでカラー化した画像(2枚)
元の画像(国文学研究資料館蔵『浮世画譜』マイクロフィルム画像)およびEvo-Nishikieでカラー化した画像
元の画像(国文学研究資料館蔵『絵本玉かつら』1736年刊)およびEvo-Nishikieでカラー化した画像
元の画像(国文学研究資料館蔵『絵本玉かつら』1736年刊)およびEvo-Nishikieでカラー化した画像
元の画像(国文学研究資料館蔵『絵本玉かつら』1736年刊)およびEvo-Nishikieでカラー化した画像
なお、上の例で示した国文学研究資料館蔵『絵本玉かつら』の全丁をカラー化した結果については、ROIS-DS人文学オープンデータ共同利用センターのウェブサイトでご覧ください。
浮世絵とは、木版で印刷された絵本(版本)の挿絵が、1670年頃に単体の絵として独立したのが始まりと言われています。初期には墨一色の墨摺絵しかなく、着色には筆を用いた手彩色が必要でした。1740年頃には複数の色版を用いて紅色などを加えた紅摺絵も登場しましたが、使える色は2-3色に限られていました。しかし1765年頃に、色数を7-8色に増やした多版多色摺の「錦絵」が登場し、錦織物のような美しさが人々を魅了しました。さらに顔料としてベロ藍がヨーロッパから輸入されるようになると、浮世絵はさらに鮮やかな色づかいに進化。そしてベロ藍の美しい青色が、葛飾北斎の世界的傑作である「神奈川沖浪裏」の誕生につながりました。こうした長年にわたる浮世絵カラー化の歴史を踏まえつつ、墨一色の浮世絵を現代の錦絵に生まれ変わらせるためのAIとして、Evo-Nishikieを使うことができます。
墨一色で摺られた江戸時代の絵本の挿絵をEvo-Nishikieでカラー化すれば、古典籍も現代の絵本のように見て楽しめるものとなり、古典籍と現代の我々との距離が近づくかもしれません。また、絵をカラー化することで、絵の細部が目に入るようになり、新たな発見につながるという効果もあります。さらに、一枚の絵から様々な色のバリエーションを生成するなど、AIを利用した実験的な試みも可能となるでしょう。
立命館大学アート・リサーチセンター、センター長 赤間亮氏のコメント:
浮世絵をもとに創作活動を行う現代のアーティストが世界中にいます。Evo-Ukiyoeが作成する浮世絵は、そうしたアーティストの創作意欲を掻き立てるだけでなく、一般の愛好者にとっても、古典としての本物の浮世絵の意味をより深く追求するきっかけを与えてくれるでしょう。また、Evo-Nishikieは、一種の着色装置ということになりますが、古典籍に特に可能性を付加したように思います。開発者のタリンさんは、くずし字解読システムを開発した方として有名ですが、錦絵摺の挿絵を眺めながら、くずし字解読システムを使って原本で古典籍が読めるということです。海外で、浮世絵と同時に絵入本のデジタル化プロジェクトを進めてきた私たちにとって、そのデジタル画像が錦絵摺になるわけですから、ワクワクせざるを得ません。日本の古典文化の再生・新たな活用の可能性が大きく広がったことは間違いないでしょう。
今後の展開
Evo-UkiyoeとEvo-Nishikieは「日本の美を学んだAI」であり、様々な可能性を秘めていると考えています。教育においては、本物の浮世絵と生成した浮世絵を比較することは、浮世絵らしさとは何かを考える材料となり、浮世絵に関する興味を増すことにもつながります。また、歴史や文化を学ぶための新たなコンテンツ作成のツールとして利用すれば、日本や世界の人々が浮世絵や日本文化に興味を持つきっかけを生み出せるでしょう。さらに一般の人々が、過去の作品を新たな視点で楽しめるようにすることは、文化の理解と継承につながります。Evo-UkiyoeとEvo-Nishikieが、日本の伝統文化を次世代に伝え、日本文化の魅力を世界に広めるAIになることを期待しています。
開発者
- カラーヌワット・タリン(Sakana AI)
- シーン誠(Sakana AI)
- 今宿祐希(Sakana AI)
協力者
- 赤間亮(立命館大学アート・リサーチセンター)
- 北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
Sakana AI
日本文化や社会へのAI適用など、AIの更なる発展を自ら切り開きたい方は、当社の募集要項をご覧ください。