< back English ver.

llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築

平野 正徳, 鈴木 雅弘, 坂地 泰紀

[Preprint] May 24, 2023


Abstract

本研究では,大規模言語モデルのための,日本語チャットデータセットを構築した.本データセットは,約840万件のデータを含んでおり,翻訳タスクや,知識タスクなど,様々なタスクをチャット形式で含んだものとなっている.構築したデータセットの有効性を確認するために,既存の大規模言語モデルをチューニングし,性能向上を定性的に確認し,日本語における大規模言語モデルや言語資源の構築における課題を明らかにした.

Keywords

大規模言語モデル; データセット; 日本語; チャット;

doi

10.51094/jxiv.383


bibtex

@preprint{Hirano2023-llm-ja,
  title={{llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築}},
  author={平野, 正徳 and 鈴木, 雅弘 and 坂地, 泰紀},
  doi={10.51094/jxiv.383},
  year={2023}
}