< back English ver.

llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築

平野 正徳, 鈴木 雅弘, 坂地 泰紀

情報処理学会 第257回自然言語処理研究発表会, Sep. 1, 2023


Conference

情報処理学会 第257回自然言語処理研究発表会 (NL研)

Abstract

本研究では,大規模言語モデルのための,日本語チャットデータセットを構築した.本データセットは,約840万件のデータを含んでおり,翻訳タスクや,知識タスクなど,様々なタスクをチャット形式で含んだものとなっている.構築したデータセットの有効性を確認するために,既存の大規模言語モデルをチューニングし,性能向上を定性的に確認し,日本語における大規模言語モデルや言語資源の構築における課題を明らかにした.

Keywords

大規模言語モデル; データセット; 日本語; チャット;


Paper

Official page


bibtex

@inproceedings{Hirano2023-signl257,
  title={{llm-japanese-dataset v0: 大規模言語モデルのための日本語チャットデータセット構築}},
  author={平野, 正徳 and 鈴木, 雅弘 and 坂地, 泰紀},
  booktitle={情報処理学会 第257回自然言語処理研究発表会},
  url={http://id.nii.ac.jp/1001/00227482/},
  year={2023}
}