TFDS รองรับ รูปแบบ Croissant 🥐 แล้ว! อ่าน เอกสาร เพื่อทราบข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

Civil_comments

คำอธิบาย :

ชุดข้อมูล CivilComments เวอร์ชันนี้ให้การเข้าถึงป้ายกำกับหลัก 7 ป้ายที่มีคำอธิบายประกอบโดยกลุ่มคนทำงาน ความเป็นพิษและแท็กอื่นๆ มีค่าระหว่าง 0 ถึง 1 ซึ่งบ่งชี้ถึงส่วนของคำอธิบายประกอบที่กำหนดแอตทริบิวต์เหล่านี้ให้กับข้อความแสดงความคิดเห็น

แท็กอื่นๆ มีให้ใช้งานเพียงเศษเสี้ยวของตัวอย่างอินพุตเท่านั้น ขณะนี้พวกเขาถูกละเว้นสำหรับชุดข้อมูลหลัก ชุด CivilCommentsIdentities มีป้ายกำกับเหล่านั้น แต่ประกอบด้วยชุดย่อยของข้อมูลเท่านั้น คุณลักษณะอื่นๆ ที่เป็นส่วนหนึ่งของการเผยแพร่ CivilComments ดั้งเดิมจะรวมอยู่ในข้อมูลดิบเท่านั้น ดูเอกสารประกอบของ Kaggle สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับคุณลักษณะที่มีอยู่

ความคิดเห็นในชุดข้อมูลนี้มาจากไฟล์เก็บถาวรของแพลตฟอร์ม Civil Comments ซึ่งเป็นปลั๊กอินแสดงความคิดเห็นสำหรับเว็บไซต์ข่าวอิสระ ความคิดเห็นสาธารณะเหล่านี้จัดทำขึ้นตั้งแต่ปี 2558 - 2560 และปรากฏในเว็บไซต์ข่าวภาษาอังกฤษประมาณ 50 แห่งทั่วโลก เมื่อความคิดเห็นสาธารณะถูกปิดตัวลงในปี 2560 พวกเขาเลือกที่จะเผยแพร่ความคิดเห็นสาธารณะในคลังข้อมูลแบบเปิดที่ใช้งานได้ยาวนานเพื่อการวิจัยในอนาคต ข้อมูลต้นฉบับที่เผยแพร่บน figshare รวมถึงข้อความความคิดเห็นสาธารณะ ข้อมูลเมตาที่เกี่ยวข้องบางส่วน เช่น ID บทความ ID สิ่งพิมพ์ การประทับเวลา และป้ายกำกับ "พลเมือง" ที่ผู้แสดงความคิดเห็นสร้างขึ้น แต่ไม่รวม ID ผู้ใช้ จิ๊กซอว์ขยายชุดข้อมูลนี้โดยเพิ่มป้ายกำกับเพิ่มเติมสำหรับความเป็นพิษ การกล่าวถึงตัวตน ตลอดจนความไม่พอใจที่แอบแฝง ชุดข้อมูลนี้เป็นแบบจำลองที่แน่นอนของข้อมูลที่เผยแพร่สำหรับความท้าทาย Jigsaw Unintended Bias in Toxicity Classification Kaggle ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น

สำหรับความคิดเห็นที่มี parent_id ในข้อมูลความคิดเห็นสาธารณะ ข้อความของความคิดเห็นก่อนหน้าจะถูกจัดเตรียมเป็นคุณลักษณะ "parent_text" โปรดทราบว่าการแยกส่วนเกิดขึ้นโดยไม่คำนึงถึงข้อมูลนี้ ดังนั้นการใช้ความคิดเห็นก่อนหน้านี้อาจทำให้ข้อมูลบางส่วนรั่วไหลได้ คำอธิบายประกอบไม่มีสิทธิ์เข้าถึงข้อความหลักเมื่อสร้างป้ายกำกับ

หน้าแรก : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
รหัสที่มา : tfds.text.CivilComments
รุ่น :
- 1.0.0 : เปิดตัวเต็มครั้งแรก
- 1.0.1 : เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น
- 1.1.0 : เพิ่มการกำหนดค่า CivilCommentsCovert
- 1.1.1 : เพิ่มการกำหนดค่า CivilCommentsCovert พร้อมเช็คซัมที่ถูกต้อง
- 1.1.2 : เพิ่มการอ้างอิงแยกต่างหากสำหรับชุดข้อมูล CivilCommentsCovert
- 1.1.3 : แก้ไขประเภทรหัสจากทศนิยมเป็นสตริง
- 1.2.0 : เพิ่มคุณสมบัติระยะเวลาที่ไม่เหมาะสม บริบท และข้อความความคิดเห็นหลัก
- 1.2.1 : แก้ไขการจัดรูปแบบที่ไม่ถูกต้องในการแยกบริบท
- 1.2.2 : อัปเดตเพื่อสะท้อนถึงบริบทที่มีการแยกขบวนเท่านั้น
- 1.2.3 : เพิ่มคำเตือนใน CivilCommentsCovert ขณะที่เราแก้ไขปัญหาข้อมูล
- 1.2.4 (ค่าเริ่มต้น): เพิ่มรหัสสิ่งพิมพ์และการประทับเวลาความคิดเห็น
ขนาดการดาวน์โหลด : 427.41 MiB
รูปภาพ ( tfds.show_examples ): ไม่รองรับ

Civil_comments/CivilComments (การกำหนดค่าเริ่มต้น)

คำอธิบายการกำหนดค่า : CivilComments ที่ตั้งค่าไว้ที่นี่ประกอบด้วยข้อมูลทั้งหมด แต่มีเพียงเจ็ดป้ายกำกับพื้นฐานเท่านั้น (ความเป็นพิษ, ความเป็นพิษรุนแรง, อนาจาร, การคุกคาม, การดูหมิ่น, การโจมตีด้วยตัวตน และทางเพศที่โจ่งแจ้ง)
ขนาดชุดข้อมูล : 1.54 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :

แยก	ตัวอย่าง
`'test'`	97,320
`'train'`	1,804,874
`'validation'`	97,320

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	Dประเภท
	คุณสมบัติDict
article_id	เทนเซอร์	int32
วันที่สร้าง	เทนเซอร์	สตริง
รหัส	เทนเซอร์	สตริง
identity_attack	เทนเซอร์	ลอย32
สบประมาท	เทนเซอร์	ลอย32
ลามก	เทนเซอร์	ลอย32
parent_id	เทนเซอร์	int32
parent_text	ข้อความ	สตริง
สิ่งพิมพ์_id	เทนเซอร์	สตริง
รุนแรง_เป็นพิษ	เทนเซอร์	ลอย32
ทางเพศ_explicit	เทนเซอร์	ลอย32
ข้อความ	ข้อความ	สตริง
ภัยคุกคาม	เทนเซอร์	ลอย32
ความเป็นพิษ	เทนเซอร์	ลอย32

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

คำอธิบายการกำหนดค่า : ชุด CivilCommentsIdentities ที่นี่ประกอบด้วยชุดเพิ่มเติมของป้ายกำกับข้อมูลประจำตัวนอกเหนือจากป้ายกำกับพื้นฐาน 7 รายการ อย่างไรก็ตาม จะรวมเฉพาะส่วนย่อย (ประมาณหนึ่งในสี่) ของข้อมูลที่มีคุณสมบัติทั้งหมดเหล่านี้
ขนาดชุดข้อมูล : 654.97 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :

แยก	ตัวอย่าง
`'test'`	21,577
`'train'`	405,130
`'validation'`	21,293

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	Dประเภท
	คุณสมบัติDict
article_id	เทนเซอร์	int32
เอเชีย	เทนเซอร์	ลอย32
ผู้ที่ไม่เชื่อในพระเจ้า	เทนเซอร์	ลอย32
กะเทย	เทนเซอร์	ลอย32
สีดำ	เทนเซอร์	ลอย32
ชาวพุทธ	เทนเซอร์	ลอย32
คริสเตียน	เทนเซอร์	ลอย32
วันที่สร้าง	เทนเซอร์	สตริง
หญิง	เทนเซอร์	ลอย32
รักต่างเพศ	เทนเซอร์	ลอย32
ฮินดู	เทนเซอร์	ลอย32
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน	เทนเซอร์	ลอย32
รหัส	เทนเซอร์	สตริง
identity_attack	เทนเซอร์	ลอย32
สบประมาท	เทนเซอร์	ลอย32
ความพิการทางสติปัญญาหรือการเรียนรู้	เทนเซอร์	ลอย32
ชาวยิว	เทนเซอร์	ลอย32
ละติน	เทนเซอร์	ลอย32
ชาย	เทนเซอร์	ลอย32
มุสลิม	เทนเซอร์	ลอย32
ลามก	เทนเซอร์	ลอย32
other_disability	เทนเซอร์	ลอย32
other_gender	เทนเซอร์	ลอย32
other_race_or_ethnicity	เทนเซอร์	ลอย32
other_religion	เทนเซอร์	ลอย32
other_sexual_orientation	เทนเซอร์	ลอย32
parent_id	เทนเซอร์	int32
parent_text	ข้อความ	สตริง
ความพิการทางร่างกาย	เทนเซอร์	ลอย32
จิตเวช_หรือ_จิต_เจ็บป่วย	เทนเซอร์	ลอย32
สิ่งพิมพ์_id	เทนเซอร์	สตริง
รุนแรง_เป็นพิษ	เทนเซอร์	ลอย32
ทางเพศ_explicit	เทนเซอร์	ลอย32
ข้อความ	ข้อความ	สตริง
ภัยคุกคาม	เทนเซอร์	ลอย32
ความเป็นพิษ	เทนเซอร์	ลอย32
คนข้ามเพศ	เทนเซอร์	ลอย32
สีขาว	เทนเซอร์	ลอย32

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

คำอธิบายการกำหนดค่า : คำเตือน: มีปัญหาด้านคุณภาพของข้อมูลที่อาจเกิดขึ้นกับ CivilCommentsCovert ซึ่งเรากำลังแก้ไขอยู่ (06/28/22) ข้อมูลพื้นฐานอาจเปลี่ยนแปลงได้!

ชุด CivilCommentsCovert เป็นส่วนย่อยของ CivilCommentsIdentities ที่มีประมาณ 20% ของรถไฟและการทดสอบแยกที่มีคำอธิบายประกอบเพิ่มเติมสำหรับความไม่พอใจที่แอบแฝง นอกเหนือจากความเป็นพิษและป้ายระบุตัวตน ผู้ประเมินถูกขอให้จัดหมวดหมู่ความคิดเห็นว่าเป็นหนึ่งในความคิดเห็นที่ไม่เหมาะสม โดยชัดแจ้ง โดยปริยาย ไม่ใช่ หรือไม่แน่ใจว่าเป็นการล่วงละเมิดหรือไม่ รวมทั้งพิจารณาว่ามีการแสดงความไม่พอใจแบบแอบแฝงประเภทต่างๆ หรือไม่ ขั้นตอนการใส่คำอธิบายประกอบฉบับเต็มมีรายละเอียดในบทความที่กำลังจะมีขึ้นที่ https://sites.google.com/corp/view/hciandnlp/accepted-papers

ขนาดชุดข้อมูล : 97.83 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	2,455
`'train'`	48,074

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	Dประเภท
	คุณสมบัติDict
article_id	เทนเซอร์	int32
เอเชีย	เทนเซอร์	ลอย32
ผู้ที่ไม่เชื่อในพระเจ้า	เทนเซอร์	ลอย32
กะเทย	เทนเซอร์	ลอย32
สีดำ	เทนเซอร์	ลอย32
ชาวพุทธ	เทนเซอร์	ลอย32
คริสเตียน	เทนเซอร์	ลอย32
covert_emoticons_emojis	เทนเซอร์	ลอย32
covert_humor	เทนเซอร์	ลอย32
covert_masked_harm	เทนเซอร์	ลอย32
covert_microaggression	เทนเซอร์	ลอย32
covert_obfuscation	เทนเซอร์	ลอย32
แอบแฝง_การเมือง	เทนเซอร์	ลอย32
covert_sarcasm	เทนเซอร์	ลอย32
วันที่สร้าง	เทนเซอร์	สตริง
explicitly_offensive	เทนเซอร์	ลอย32
หญิง	เทนเซอร์	ลอย32
รักต่างเพศ	เทนเซอร์	ลอย32
ฮินดู	เทนเซอร์	ลอย32
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน	เทนเซอร์	ลอย32
รหัส	เทนเซอร์	สตริง
identity_attack	เทนเซอร์	ลอย32
implicitly_offensive	เทนเซอร์	ลอย32
สบประมาท	เทนเซอร์	ลอย32
ความพิการทางสติปัญญาหรือการเรียนรู้	เทนเซอร์	ลอย32
ชาวยิว	เทนเซอร์	ลอย32
ละติน	เทนเซอร์	ลอย32
ชาย	เทนเซอร์	ลอย32
มุสลิม	เทนเซอร์	ลอย32
not_offensive	เทนเซอร์	ลอย32
not_sure_offensive	เทนเซอร์	ลอย32
ลามก	เทนเซอร์	ลอย32
other_disability	เทนเซอร์	ลอย32
other_gender	เทนเซอร์	ลอย32
other_race_or_ethnicity	เทนเซอร์	ลอย32
other_religion	เทนเซอร์	ลอย32
other_sexual_orientation	เทนเซอร์	ลอย32
parent_id	เทนเซอร์	int32
parent_text	ข้อความ	สตริง
ความพิการทางร่างกาย	เทนเซอร์	ลอย32
จิตเวช_หรือ_จิต_เจ็บป่วย	เทนเซอร์	ลอย32
สิ่งพิมพ์_id	เทนเซอร์	สตริง
รุนแรง_เป็นพิษ	เทนเซอร์	ลอย32
ทางเพศ_explicit	เทนเซอร์	ลอย32
ข้อความ	ข้อความ	สตริง
ภัยคุกคาม	เทนเซอร์	ลอย32
ความเป็นพิษ	เทนเซอร์	ลอย32
คนข้ามเพศ	เทนเซอร์	ลอย32
สีขาว	เทนเซอร์	ลอย32

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

คำอธิบายการกำหนดค่า : CivilComments Toxic Spans เป็นส่วนย่อยของ CivilComments ที่ติดป้ายกำกับไว้ที่ระดับสแปน ดัชนีของขอบเขตอักขระทั้งหมด (unicode codepoints) ที่ถูกแท็กว่าเป็นพิษโดยตัวอธิบายประกอบส่วนใหญ่จะถูกส่งกลับในคุณลักษณะ 'spans'
ขนาดชุดข้อมูล : 5.81 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	2,000
`'train'`	7,939
`'validation'`	682

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
article_id	เทนเซอร์		int32
วันที่สร้าง	เทนเซอร์		สตริง
รหัส	เทนเซอร์		สตริง
parent_id	เทนเซอร์		int32
parent_text	ข้อความ		สตริง
สิ่งพิมพ์_id	เทนเซอร์		สตริง
ช่วง	เทนเซอร์	(ไม่มี,)	int32
ข้อความ	ข้อความ		สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'spans')
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

คำอธิบายการกำหนดค่า : CivilComments ในบริบทเป็นชุดย่อยของ CivilComments ที่ถูกติดป้ายกำกับโดยการทำให้ parent_text พร้อมใช้งานสำหรับผู้ติดป้ายกำกับ ซึ่งรวมถึงคุณสมบัติบริบทความเป็นพิษ
ขนาดชุดข้อมูล : 9.63 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	9,969

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	Dประเภท
	คุณสมบัติDict
article_id	เทนเซอร์	int32
บริบท_ความเป็นพิษ	เทนเซอร์	ลอย32
วันที่สร้าง	เทนเซอร์	สตริง
รหัส	เทนเซอร์	สตริง
identity_attack	เทนเซอร์	ลอย32
สบประมาท	เทนเซอร์	ลอย32
ลามก	เทนเซอร์	ลอย32
parent_id	เทนเซอร์	int32
parent_text	ข้อความ	สตริง
สิ่งพิมพ์_id	เทนเซอร์	สตริง
รุนแรง_เป็นพิษ	เทนเซอร์	ลอย32
ทางเพศ_explicit	เทนเซอร์	ลอย32
ข้อความ	ข้อความ	สตริง
ภัยคุกคาม	เทนเซอร์	ลอย32
ความเป็นพิษ	เทนเซอร์	ลอย32

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}