「LLM-jp Toxicity Dataset v2」の公開
日本語有害文書データセット「LLM-jp Toxicity Dataset v2」の公開についてお知らせいたします。
本データセットは、有害文書検出技術の研究開発を目的として、Common Crawlコーパスから収集した日本語文書に対し、有害性に基づいて人手でラベル付けしたもので、昨年公開したLLM-jp Toxicity Datasetに2,000件のデータを追加することで作成しました。全部で3,847件のラベル付き文書が含まれております。有害かどうかのラベルに加え、猥褻、差別、暴力、違法行為などの有害性の中身についてもラベルが付与されています。ライセンスはCC-BYで商用利用も可能です。是非ご活用いただければと思います。
詳しくは、上記リポジトリのREADMEと以下の論文をご覧ください。
本データセットは、理化学研究所 革新知能統合研究センター 言語情報アクセス技術チームとLLM-jpの皆様のご協力により構築されました。