「LLM-jp Toxicity Dataset」の公開

August 7, 2024

日本語有害文書データセット「LLM-jp Toxicity Dataset」の公開についてお知らせいたします。

https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset

本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたものです。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。全部で1,847件のラベル付き文書が含まれており、ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。

詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。

LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs (LLM-jp, 2024)

本データセットは、理化学研究所革新知能統合研究センター言語情報アクセス技術チームとLLM-jpの皆様のご協力により構築されました。