多様なテンプレートと合成データを用いた大規模言語モデルの業種区分予測における知識抽出

矢野一樹, 平野正徳, 今城健太郎

人工知能学会第34回金融情報学研究会, pp. 132-137, Mar. 2, 2025

Conference

人工知能学会第34回金融情報学研究会 (SIG-FIN)

Abstract

大規模言語モデル（LLM）の金融分野への応用が注目を集める中，LLM は金融市場特有の専門知識を推論時に活用する必要がある．特に，日本の金融市場に特有の知識である業種区分は，投資判断における重要な指標である．しかし，金融特化型LLM であっても，その知識を効果的に抽出・活用できていないのが現状である．本研究では，LLM における業種区分の知識抽出能力を向上させるため，質問応答形式のテンプレートを用い，ルールベースおよびLLM ベースで合成したデータセットで微調整を行い，その効果を検証する．実験結果から，LLM ベースの合成データの使用およびテンプレートの多様化が，モデルの業種区分に関する知識抽出能力を有意に向上させることを確認した．さらに，合成データのパープレキシティと業種区分の正答率との間に相関があることを示し，効果的なデータセット設計の指針を提供する．

Keywords

大規模言語モデル; ファインチューニング; 合成データ;

doi

10.11517/jsaisigtwo.2025.FIN-034_132

bibtex

@inproceedings{Yano2025-sigfin34,
  title={{多様なテンプレートと合成データを用いた大規模言語モデルの業種区分予測における知識抽出}},
  author={矢野 一樹 and 平野 正徳 and 今城 健太郎},
  booktitle={人工知能学会第34回金融情報学研究会},
  pages={132-137},
  doi={10.11517/jsaisigtwo.2025.FIN-034_132},
  year={2025}
}