EDINET-Bench: 有価証券報告書を用いた日本語金融ベンチマークの公開


概要

Sakana AIはこのたび、会計不正検知をはじめとする高度な金融タスクにおける大規模言語モデル(LLM)の性能を測定する日本語金融ベンチマーク「EDINET-Bench」を開発しました。

今回公開する内容は以下です:


背景

近年、LLMは目覚ましい発展を遂げており、専門知識や数学、コーディングといった様々な分野のベンチマークで高い性能を示しています。大量の図表を含む文書を扱う必要のある金融分野においても、LLMの活用による変革が期待されています。

一方で、LLMの金融分野への応用は、プログラミング支援などと比べると、まだ発展途上にあります。その原因の一つとして、実タスクに近い高度な金融タスクの性能を測るベンチマークの欠如が挙げられます。既存のベンチマークの多くは金融知識に関する質問応答や情報抽出といった比較的簡単なタスクが多く、実応用と乖離がありました。英語圏では、FinBenのように、実タスクに近い高度な金融タスクも提案されつつありますが、日本ではまだ少ない状況です。

金融の仕組みやルールは国ごとに大きく違うため、あるモデルが英語圏のベンチマークでの性能が良いからといって、日本でも同じようにうまく動くとは限りません。日本独自のベンチマークを作ることには大きな意味があります。

Sakana AIは今回、金融庁の電子開示システムであるEDINETから日本の上場企業の有価証券報告書を無償で取得できることに着目し、これに基づく日本語金融ベンチマークEDINET-Benchを開発しました。

EDINET-Benchには、以下の3つのタスクが含まれています。

以下では、3つのタスクのうち、会計不正検知を中心に解説します。


会計不正検知の自動化に向けて

上場企業は一年に一度自社の経営情報等をまとめた有価証券報告書を開示することが法律で義務付けられています。


図:有価証券報告書の一例。有価証券報告書は、100〜200ページにわたるテキスト、図表などを含むドキュメントである。

この報告書は、監査制度により誤りがないことが確認されたうえで発行されます。しかし日本では、架空の売上によって業績を良く見せる等の会計不正行為がたびたび発生しています。一見整合的な財務諸表に隠された不正の兆候は、企業の実際の活動に照らし合わせることで初めて見抜けるため、その検知は容易ではありません。それでも、不正の兆候を早期に察知できれば、被害の拡大を未然に防ぐことができると考えられます。


図:会計不正の公表会社数の推移(日本公認会計士協会「上場会社等における会計不正の動向(2024年版)」図表II-1をもとに作成)

このような会計不正をデータ分析の手法で検知しようとする試みは既に存在しており、国内でもいくつかの研究事例が報告されています。しかし、会計不正の研究で利用可能なオープンデータセットが限られていたために、有料の金融データセットを有しないAI研究者の参入障壁となっていました。そこで本研究では、オープンデータセットの構築と、LLMを用いた会計不正検知の性能評価を通じて、実用化に向けた研究を一歩前進させました。


ベンチマーク構築方法

EDINET-Benchは、以下のようなパイプラインで構築しました。


図: EDINET-Benchの構築パイプライン

EDINETを用いて日本の上場企業の有価証券報告書を過去10年分、約41,000件集めた上で、各タスクについて、年度やクラスバランスを考慮して有価証券報告書をサンプリングし、ラベルをつけました。

会計不正検知タスクにおける不正事例については、有価証券報告書の訂正報告書(過去10年分、約6,700件)の内容をもとに、LLMで会計不正(会計報告に関する意図しない誤謬を含む)に関連があるか判断させることで不正・誤謬事例を約600件用意しました。目視で確認したところ、多くの場合で不正会計の事例が確認できましたが、プロンプトで指示した種類の会計不正には該当しない理由による訂正のケースもいくつか含まれていました。より妥当な不正事例の用意の方法については今後の課題です。

EDINET-Benchの構築方法の特徴として、全てのタスクにおいてラベルを自動的に付与するようになっており、データセットの更新と、サイズの拡張が可能な点があげられます。EDINET-Benchの構築に用いたツール「edinet2dataset」はGitHubで公開しており、どなたでも最新の有価証券報告書を用いて、新たなベンチマークデータセットを構築することが可能です。また、今回構築したベンチマークデータセットもHuggingFaceにて公開しています。


EDINET-Benchによる評価:見えてきた課題と可能性

EDINET-Benchを用いて、最先端の大規模言語モデル(LLM)の性能を、タスクに特化した学習を行わないゼロショット設定で評価しました。入力には、有価証券報告書から貸借対照表(BS)やキャッシュフロー計算書(CF)などの情報を抽出した上で指示プロンプトとともにLLMに入力し、クラスを予測させます。評価の詳細は今回公開する論文およびコードをご覧ください。


図: EDINET-Benchの構築パイプライン

評価の結果、会計不正検知タスクにおいて、最先端のLLMでも古典的な機械学習モデルのロジスティックモデルと同程度の性能にとどまることがわかりました。ROC-AUCは0.5がランダム予測と同程度、1.0が完璧な予測ですが、今回の評価設定では最も良い設定でも0.7程度となっており、会計不正検知が難しいことを示唆しています。


図:EDINET-Benchの各タスクにおける各モデルの性能

一方で、表データに加えて、有価証券報告書中のテキスト情報(事業内容の説明など)を入力に含めることで、検知性能が向上する傾向が見られました。これは、より多くの情報を与えることの有効性を示唆する結果と言えます。実際に、LLMに予測と共に出力させた判断根拠を分析すると、テキスト情報に含まれる監査人の名前を挙げるなどの興味深い挙動も観察されました。しかしこの点は、特定の監査法人の信頼性を不合理に高くあるいは低く評価している可能性を含め、今後、公平性などの観点から検討することが求められます。

今回の評価では、有価証券報告書一つから抽出できるデータのみをLLMに与えましたが、有価証券報告書は企業の経済活動の要約に過ぎません。実際の監査業務において、会計士はインターネット上に公開されている決算説明資料等の資料のほか、企業の内部情報を含む、より多岐にわたる情報にアクセスすることができます。今後は、会計士が置かれている状況に近い、よりリッチな環境をLLMに提供した上で評価を行うことが重要になると考えています。


日本の金融AI活用の未来に向けて

EDINET-Benchの評価から、今回のような有価証券報告書をLLMに与える単純な設定では、会計不正の検知においては、課題があることがわかりました。同時に、情報の与え方や活用方法を工夫することで、性能向上の可能性があることも示唆されました。

本研究が、日本の金融業界におけるLLM活用に向けた一助となることを願っております。また、本ベンチマークの作成とその評価で得た知見をもとに、Sakana AIは金融タスクによりよく対応できる特化型LLMの開発など、金融分野へのAI実装に向けた研究開発を進めてまいります。




Sakana AI

日本でのAIの未来を、Sakana AIと一緒に切り拓いてくださる方を募集しています。当社の募集要項をご覧ください。