Civil_comments

  • 説明:

このバージョンの CivilComments データセットは、クラウド ワーカーによって注釈が付けられた主要な 7 つのラベルへのアクセスを提供します。毒性およびその他のタグは 0 から 1 の間の値であり、これらの属性をコメント テキストに割り当てた注釈者の割合を示します。

他のタグは、入力例の一部でのみ使用できます。これらは現在、メイン データセットでは無視されます。 CivilCommentsIdentities セットにはこれらのラベルが含まれていますが、それらを含むデータのサブセットのみで構成されています。元の CivilComments リリースの一部であったその他の属性は、生データにのみ含まれています。利用可能な機能の詳細については、Kaggle のドキュメントを参照してください。

このデータセットのコメントは、独立したニュース サイトのコメント プラグインである Civil Comments プラットフォームのアーカイブから取得されます。これらのパブリック コメントは 2015 年から 2017 年にかけて作成され、世界中の約 50 の英語ニュース サイトに掲載されました。 Civil Comments が 2017 年に閉鎖されたとき、彼らは将来の研究を可能にするために、パブリック コメントを永続的なオープン アーカイブで利用できるようにすることを選択しました。 figshare で公開された元のデータには、パブリック コメント テキスト、記事 ID、出版物 ID、タイムスタンプ、コメント投稿者が生成した「市民性」ラベルなどの関連メタデータが含まれますが、ユーザー ID は含まれません。 Jigsaw は、このデータセットを拡張して、毒性、アイデンティティへの言及、および秘密の攻撃性に関する追加のラベルを追加しました。このデータセットは、Jigsaw Unintended Bias in Toxicity Classification Kaggle チャレンジでリリースされたデータの正確なレプリカです。このデータセットは、基になるコメント テキストと同様に、CC0 でリリースされます。

民事コメントデータにもparent_idを持つコメントの場合、前のコメントのテキストが「parent_text」機能として提供されます。分割はこの情報に関係なく行われたため、以前のコメントを使用すると一部の情報が漏洩する可能性があることに注意してください.注釈者は、ラベルを作成するときに親テキストにアクセスできませんでした。

  • ホームページ: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • ソースコード: tfds.text.CivilComments

  • バージョン:

    • 1.0.0 : 最初の完全リリース。
    • 1.0.1 : 各コメントに一意の ID を追加しました。
    • 1.1.0 : CivilCommentsCovert 構成を追加しました。
    • 1.1.1 : 正しいチェックサムで CivilCommentsCovert 構成を追加しました。
    • 1.1.2 : CivilCommentsCovert データセットの別の引用を追加しました。
    • 1.1.3 : id 型を float から string に修正しました。
    • 1.2.0 : 有毒なスパン、コンテキスト、および親コメント テキスト機能を追加します。
    • 1.2.1 : コンテキスト分割での不適切な書式設定を修正しました。
    • 1.2.2 : 列車の分割のみを含むコンテキストを反映するように更新します。
    • 1.2.3 : データの問題を修正するため、CivilCommentsCovert に警告を追加します。
    • 1.2.4 (デフォルト): パブリケーション ID とコメントのタイムスタンプを追加します。
  • ダウンロードサイズ: 427.41 MiB

  • ( tfds.show_examples ): サポートされていません。

Civil_comments/CivilComments (デフォルト設定)

  • 構成の説明: ここで設定された CivilComments にはすべてのデータが含まれますが、基本的な 7 つのラベル (毒性、深刻な毒性、わいせつ、脅威、侮辱、identity_attack、および性的明示) のみが含まれます。

  • データセットサイズ: 1.54 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • 機能構造:
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
article_idテンソルint32
作成日テンソル
IDテンソル
アイデンティティーアタックテンソルfloat32
侮辱テンソルfloat32
わいせつなテンソルfloat32
親IDテンソルint32
親テキスト文章
出版物_idテンソル
深刻な毒性テンソルfloat32
性的な_露骨なテンソルfloat32
文章文章
脅威テンソルfloat32
毒性テンソルfloat32
  • 引用
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • 構成の説明: ここで設定された CivilCommentsIdentities には、基本的な 7 つのラベルに加えて、アイデンティティ ラベルの拡張セットが含まれています。ただし、これらすべての機能を備えたデータのサブセット (約 4 分の 1) のみが含まれます。

  • データセットのサイズ: 654.97 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 21,577
'train' 405,130
'validation' 21,293
  • 機能構造:
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
article_idテンソルint32
アジア人テンソルfloat32
無神論者テンソルfloat32
バイセクシャルテンソルfloat32
テンソルfloat32
仏教徒テンソルfloat32
キリスト教徒テンソルfloat32
作成日テンソル
女性テンソルfloat32
異性愛者テンソルfloat32
ヒンドゥー教テンソルfloat32
同性愛者_ゲイ_または_レズビアンテンソルfloat32
IDテンソル
アイデンティティーアタックテンソルfloat32
侮辱テンソルfloat32
知的または学習障害テンソルfloat32
ユダヤ人テンソルfloat32
ラテン系テンソルfloat32
テンソルfloat32
イスラム教徒テンソルfloat32
わいせつなテンソルfloat32
その他の障害テンソルfloat32
other_genderテンソルfloat32
other_race_or_ethnicityテンソルfloat32
その他の宗教テンソルfloat32
その他の性的指向テンソルfloat32
親IDテンソルint32
親テキスト文章
身体障害テンソルfloat32
精神病または精神病テンソルfloat32
出版物_idテンソル
深刻な毒性テンソルfloat32
性的な_露骨なテンソルfloat32
文章文章
脅威テンソルfloat32
毒性テンソルfloat32
トランスジェンダーテンソルfloat32
テンソルfloat32
  • 引用
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

  • 構成の説明: 警告: CivilCommentsCovert には潜在的なデータ品質の問題があり、修正に積極的に取り組んでいます (06/28/22)。基になるデータが変更される可能性があります。

CivilCommentsCovert セットは、CivilCommentsIdentities のサブセットであり、トレーニングとテストの分割の約 20% に、毒性と ID ラベルに加えて、秘密の攻撃性についてさらに注釈が付けられています。評価者は、コメントを明示的、暗示的、ない、または攻撃的かどうかわからない、およびさまざまな種類の秘密の攻撃性が含まれているかどうかに分類するよう求められました。完全な注釈手順は、 https://sites.google.com/corp/view/hciandnlp/accepted-papersにある次の論文で詳しく説明されています。

  • データセットのサイズ: 97.83 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 2,455
'train' 48,074
  • 機能構造:
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
article_idテンソルint32
アジア人テンソルfloat32
無神論者テンソルfloat32
バイセクシャルテンソルfloat32
テンソルfloat32
仏教徒テンソルfloat32
キリスト教徒テンソルfloat32
covert_emoticons_emojisテンソルfloat32
コバート・ユーモアテンソルfloat32
covert_masked_harmテンソルfloat32
隠密マイクロアグレッションテンソルfloat32
covert_obfuscationテンソルfloat32
隠密政治テンソルfloat32
秘密の皮肉テンソルfloat32
作成日テンソル
明示的に攻撃的テンソルfloat32
女性テンソルfloat32
異性愛者テンソルfloat32
ヒンドゥー教テンソルfloat32
同性愛者_ゲイ_または_レズビアンテンソルfloat32
IDテンソル
アイデンティティーアタックテンソルfloat32
暗黙的_攻撃的テンソルfloat32
侮辱テンソルfloat32
知的または学習障害テンソルfloat32
ユダヤ人テンソルfloat32
ラテン系テンソルfloat32
テンソルfloat32
イスラム教徒テンソルfloat32
攻撃的ではないテンソルfloat32
not_sure_offensiveテンソルfloat32
わいせつなテンソルfloat32
その他の障害テンソルfloat32
other_genderテンソルfloat32
other_race_or_ethnicityテンソルfloat32
その他の宗教テンソルfloat32
その他の性的指向テンソルfloat32
親IDテンソルint32
親テキスト文章
身体障害テンソルfloat32
精神病または精神病テンソルfloat32
出版物_idテンソル
深刻な毒性テンソルfloat32
性的な_露骨なテンソルfloat32
文章文章
脅威テンソルfloat32
毒性テンソルfloat32
トランスジェンダーテンソルfloat32
テンソルfloat32
  • 引用
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • 構成の説明: CivilComments の有毒なスパンは、スパン レベルでラベル付けされた CivilComments のサブセットです。大多数のアノテーターによって有毒であるとタグ付けされたすべての文字 (Unicode コードポイント) 境界のインデックスは、「スパン」機能で返されます。

  • データセットのサイズ: 5.81 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 2,000
'train' 7,939
'validation' 682
  • 機能構造:
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
article_idテンソルint32
作成日テンソル
IDテンソル
親IDテンソルint32
親テキスト文章
出版物_idテンソル
スパンテンソル(なし、) int32
文章文章
  • 引用
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • 構成の説明: コンテキスト内の CivilComments は、ラベラーがparent_text を利用できるようにすることでラベル付けされた CivilComments のサブセットです。 contextual_toxicity 機能が含まれています。

  • データセットサイズ: 9.63 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 9,969
  • 機能構造:
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
article_idテンソルint32
contextual_toxicityテンソルfloat32
作成日テンソル
IDテンソル
アイデンティティーアタックテンソルfloat32
侮辱テンソルfloat32
わいせつなテンソルfloat32
親IDテンソルint32
親テキスト文章
出版物_idテンソル
深刻な毒性テンソルfloat32
性的な_露骨なテンソルfloat32
文章文章
脅威テンソルfloat32
毒性テンソルfloat32
  • 引用
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}