- คำอธิบาย :
ชุดข้อมูล CivilComments เวอร์ชันนี้ให้การเข้าถึงป้ายกำกับหลัก 7 ป้ายที่มีคำอธิบายประกอบโดยกลุ่มคนทำงาน ความเป็นพิษและแท็กอื่นๆ มีค่าระหว่าง 0 ถึง 1 ซึ่งบ่งชี้ถึงส่วนของคำอธิบายประกอบที่กำหนดแอตทริบิวต์เหล่านี้ให้กับข้อความแสดงความคิดเห็น
แท็กอื่นๆ มีให้ใช้งานเพียงเศษเสี้ยวของตัวอย่างอินพุตเท่านั้น ขณะนี้พวกเขาถูกละเว้นสำหรับชุดข้อมูลหลัก ชุด CivilCommentsIdentities มีป้ายกำกับเหล่านั้น แต่ประกอบด้วยชุดย่อยของข้อมูลเท่านั้น คุณลักษณะอื่นๆ ที่เป็นส่วนหนึ่งของการเผยแพร่ CivilComments ดั้งเดิมจะรวมอยู่ในข้อมูลดิบเท่านั้น ดูเอกสารประกอบของ Kaggle สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับคุณลักษณะที่มีอยู่
ความคิดเห็นในชุดข้อมูลนี้มาจากไฟล์เก็บถาวรของแพลตฟอร์ม Civil Comments ซึ่งเป็นปลั๊กอินแสดงความคิดเห็นสำหรับเว็บไซต์ข่าวอิสระ ความคิดเห็นสาธารณะเหล่านี้จัดทำขึ้นตั้งแต่ปี 2558 - 2560 และปรากฏในเว็บไซต์ข่าวภาษาอังกฤษประมาณ 50 แห่งทั่วโลก เมื่อความคิดเห็นสาธารณะถูกปิดตัวลงในปี 2560 พวกเขาเลือกที่จะเผยแพร่ความคิดเห็นสาธารณะในคลังข้อมูลแบบเปิดที่ใช้งานได้ยาวนานเพื่อการวิจัยในอนาคต ข้อมูลต้นฉบับที่เผยแพร่บน figshare รวมถึงข้อความความคิดเห็นสาธารณะ ข้อมูลเมตาที่เกี่ยวข้องบางส่วน เช่น ID บทความ ID สิ่งพิมพ์ การประทับเวลา และป้ายกำกับ "พลเมือง" ที่ผู้แสดงความคิดเห็นสร้างขึ้น แต่ไม่รวม ID ผู้ใช้ จิ๊กซอว์ขยายชุดข้อมูลนี้โดยเพิ่มป้ายกำกับเพิ่มเติมสำหรับความเป็นพิษ การกล่าวถึงตัวตน ตลอดจนความไม่พอใจที่แอบแฝง ชุดข้อมูลนี้เป็นแบบจำลองที่แน่นอนของข้อมูลที่เผยแพร่สำหรับความท้าทาย Jigsaw Unintended Bias in Toxicity Classification Kaggle ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น
สำหรับความคิดเห็นที่มี parent_id ในข้อมูลความคิดเห็นสาธารณะ ข้อความของความคิดเห็นก่อนหน้าจะถูกจัดเตรียมเป็นคุณลักษณะ "parent_text" โปรดทราบว่าการแยกส่วนเกิดขึ้นโดยไม่คำนึงถึงข้อมูลนี้ ดังนั้นการใช้ความคิดเห็นก่อนหน้านี้อาจทำให้ข้อมูลบางส่วนรั่วไหลได้ คำอธิบายประกอบไม่มีสิทธิ์เข้าถึงข้อความหลักเมื่อสร้างป้ายกำกับ
หน้าแรก : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
รหัสที่มา :
tfds.text.CivilComments
รุ่น :
-
1.0.0
: เปิดตัวเต็มครั้งแรก -
1.0.1
: เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น -
1.1.0
: เพิ่มการกำหนดค่า CivilCommentsCovert -
1.1.1
: เพิ่มการกำหนดค่า CivilCommentsCovert พร้อมเช็คซัมที่ถูกต้อง -
1.1.2
: เพิ่มการอ้างอิงแยกต่างหากสำหรับชุดข้อมูล CivilCommentsCovert -
1.1.3
: แก้ไขประเภทรหัสจากทศนิยมเป็นสตริง -
1.2.0
: เพิ่มคุณสมบัติระยะเวลาที่ไม่เหมาะสม บริบท และข้อความความคิดเห็นหลัก -
1.2.1
: แก้ไขการจัดรูปแบบที่ไม่ถูกต้องในการแยกบริบท -
1.2.2
: อัปเดตเพื่อสะท้อนถึงบริบทที่มีการแยกขบวนเท่านั้น -
1.2.3
: เพิ่มคำเตือนใน CivilCommentsCovert ขณะที่เราแก้ไขปัญหาข้อมูล -
1.2.4
(ค่าเริ่มต้น): เพิ่มรหัสสิ่งพิมพ์และการประทับเวลาความคิดเห็น
-
ขนาดการดาวน์โหลด :
427.41 MiB
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
Civil_comments/CivilComments (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : CivilComments ที่ตั้งค่าไว้ที่นี่ประกอบด้วยข้อมูลทั้งหมด แต่มีเพียงเจ็ดป้ายกำกับพื้นฐานเท่านั้น (ความเป็นพิษ, ความเป็นพิษรุนแรง, อนาจาร, การคุกคาม, การดูหมิ่น, การโจมตีด้วยตัวตน และทางเพศที่โจ่งแจ้ง)
ขนาดชุดข้อมูล :
1.54 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
article_id | เทนเซอร์ | int32 | ||
วันที่สร้าง | เทนเซอร์ | สตริง | ||
รหัส | เทนเซอร์ | สตริง | ||
identity_attack | เทนเซอร์ | ลอย32 | ||
สบประมาท | เทนเซอร์ | ลอย32 | ||
ลามก | เทนเซอร์ | ลอย32 | ||
parent_id | เทนเซอร์ | int32 | ||
parent_text | ข้อความ | สตริง | ||
สิ่งพิมพ์_id | เทนเซอร์ | สตริง | ||
รุนแรง_เป็นพิษ | เทนเซอร์ | ลอย32 | ||
ทางเพศ_explicit | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง | ||
ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsIdentities
คำอธิบายการกำหนดค่า : ชุด CivilCommentsIdentities ที่นี่ประกอบด้วยชุดเพิ่มเติมของป้ายกำกับข้อมูลประจำตัวนอกเหนือจากป้ายกำกับพื้นฐาน 7 รายการ อย่างไรก็ตาม จะรวมเฉพาะส่วนย่อย (ประมาณหนึ่งในสี่) ของข้อมูลที่มีคุณสมบัติทั้งหมดเหล่านี้
ขนาดชุดข้อมูล :
654.97 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
article_id | เทนเซอร์ | int32 | ||
เอเชีย | เทนเซอร์ | ลอย32 | ||
ผู้ที่ไม่เชื่อในพระเจ้า | เทนเซอร์ | ลอย32 | ||
กะเทย | เทนเซอร์ | ลอย32 | ||
สีดำ | เทนเซอร์ | ลอย32 | ||
ชาวพุทธ | เทนเซอร์ | ลอย32 | ||
คริสเตียน | เทนเซอร์ | ลอย32 | ||
วันที่สร้าง | เทนเซอร์ | สตริง | ||
หญิง | เทนเซอร์ | ลอย32 | ||
รักต่างเพศ | เทนเซอร์ | ลอย32 | ||
ฮินดู | เทนเซอร์ | ลอย32 | ||
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน | เทนเซอร์ | ลอย32 | ||
รหัส | เทนเซอร์ | สตริง | ||
identity_attack | เทนเซอร์ | ลอย32 | ||
สบประมาท | เทนเซอร์ | ลอย32 | ||
ความพิการทางสติปัญญาหรือการเรียนรู้ | เทนเซอร์ | ลอย32 | ||
ชาวยิว | เทนเซอร์ | ลอย32 | ||
ละติน | เทนเซอร์ | ลอย32 | ||
ชาย | เทนเซอร์ | ลอย32 | ||
มุสลิม | เทนเซอร์ | ลอย32 | ||
ลามก | เทนเซอร์ | ลอย32 | ||
other_disability | เทนเซอร์ | ลอย32 | ||
other_gender | เทนเซอร์ | ลอย32 | ||
other_race_or_ethnicity | เทนเซอร์ | ลอย32 | ||
other_religion | เทนเซอร์ | ลอย32 | ||
other_sexual_orientation | เทนเซอร์ | ลอย32 | ||
parent_id | เทนเซอร์ | int32 | ||
parent_text | ข้อความ | สตริง | ||
ความพิการทางร่างกาย | เทนเซอร์ | ลอย32 | ||
จิตเวช_หรือ_จิต_เจ็บป่วย | เทนเซอร์ | ลอย32 | ||
สิ่งพิมพ์_id | เทนเซอร์ | สตริง | ||
รุนแรง_เป็นพิษ | เทนเซอร์ | ลอย32 | ||
ทางเพศ_explicit | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง | ||
ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 | ||
คนข้ามเพศ | เทนเซอร์ | ลอย32 | ||
สีขาว | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsCovert
- คำอธิบายการกำหนดค่า : คำเตือน: มีปัญหาด้านคุณภาพของข้อมูลที่อาจเกิดขึ้นกับ CivilCommentsCovert ซึ่งเรากำลังแก้ไขอยู่ (06/28/22) ข้อมูลพื้นฐานอาจเปลี่ยนแปลงได้!
ชุด CivilCommentsCovert เป็นส่วนย่อยของ CivilCommentsIdentities ที่มีประมาณ 20% ของรถไฟและการทดสอบแยกที่มีคำอธิบายประกอบเพิ่มเติมสำหรับความไม่พอใจที่แอบแฝง นอกเหนือจากความเป็นพิษและป้ายระบุตัวตน ผู้ประเมินถูกขอให้จัดหมวดหมู่ความคิดเห็นว่าเป็นหนึ่งในความคิดเห็นที่ไม่เหมาะสม โดยชัดแจ้ง โดยปริยาย ไม่ใช่ หรือไม่แน่ใจว่าเป็นการล่วงละเมิดหรือไม่ รวมทั้งพิจารณาว่ามีการแสดงความไม่พอใจแบบแอบแฝงประเภทต่างๆ หรือไม่ ขั้นตอนการใส่คำอธิบายประกอบฉบับเต็มมีรายละเอียดในบทความที่กำลังจะมีขึ้นที่ https://sites.google.com/corp/view/hciandnlp/accepted-papers
ขนาดชุดข้อมูล :
97.83 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,455 |
'train' | 48,074 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
article_id | เทนเซอร์ | int32 | ||
เอเชีย | เทนเซอร์ | ลอย32 | ||
ผู้ที่ไม่เชื่อในพระเจ้า | เทนเซอร์ | ลอย32 | ||
กะเทย | เทนเซอร์ | ลอย32 | ||
สีดำ | เทนเซอร์ | ลอย32 | ||
ชาวพุทธ | เทนเซอร์ | ลอย32 | ||
คริสเตียน | เทนเซอร์ | ลอย32 | ||
covert_emoticons_emojis | เทนเซอร์ | ลอย32 | ||
covert_humor | เทนเซอร์ | ลอย32 | ||
covert_masked_harm | เทนเซอร์ | ลอย32 | ||
covert_microaggression | เทนเซอร์ | ลอย32 | ||
covert_obfuscation | เทนเซอร์ | ลอย32 | ||
แอบแฝง_การเมือง | เทนเซอร์ | ลอย32 | ||
covert_sarcasm | เทนเซอร์ | ลอย32 | ||
วันที่สร้าง | เทนเซอร์ | สตริง | ||
explicitly_offensive | เทนเซอร์ | ลอย32 | ||
หญิง | เทนเซอร์ | ลอย32 | ||
รักต่างเพศ | เทนเซอร์ | ลอย32 | ||
ฮินดู | เทนเซอร์ | ลอย32 | ||
รักร่วมเพศ_เกย์_หรือ_เลสเบี้ยน | เทนเซอร์ | ลอย32 | ||
รหัส | เทนเซอร์ | สตริง | ||
identity_attack | เทนเซอร์ | ลอย32 | ||
implicitly_offensive | เทนเซอร์ | ลอย32 | ||
สบประมาท | เทนเซอร์ | ลอย32 | ||
ความพิการทางสติปัญญาหรือการเรียนรู้ | เทนเซอร์ | ลอย32 | ||
ชาวยิว | เทนเซอร์ | ลอย32 | ||
ละติน | เทนเซอร์ | ลอย32 | ||
ชาย | เทนเซอร์ | ลอย32 | ||
มุสลิม | เทนเซอร์ | ลอย32 | ||
not_offensive | เทนเซอร์ | ลอย32 | ||
not_sure_offensive | เทนเซอร์ | ลอย32 | ||
ลามก | เทนเซอร์ | ลอย32 | ||
other_disability | เทนเซอร์ | ลอย32 | ||
other_gender | เทนเซอร์ | ลอย32 | ||
other_race_or_ethnicity | เทนเซอร์ | ลอย32 | ||
other_religion | เทนเซอร์ | ลอย32 | ||
other_sexual_orientation | เทนเซอร์ | ลอย32 | ||
parent_id | เทนเซอร์ | int32 | ||
parent_text | ข้อความ | สตริง | ||
ความพิการทางร่างกาย | เทนเซอร์ | ลอย32 | ||
จิตเวช_หรือ_จิต_เจ็บป่วย | เทนเซอร์ | ลอย32 | ||
สิ่งพิมพ์_id | เทนเซอร์ | สตริง | ||
รุนแรง_เป็นพิษ | เทนเซอร์ | ลอย32 | ||
ทางเพศ_explicit | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง | ||
ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 | ||
คนข้ามเพศ | เทนเซอร์ | ลอย32 | ||
สีขาว | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments/CivilCommentsToxicSpans
คำอธิบายการกำหนดค่า : CivilComments Toxic Spans เป็นส่วนย่อยของ CivilComments ที่ติดป้ายกำกับไว้ที่ระดับสแปน ดัชนีของขอบเขตอักขระทั้งหมด (unicode codepoints) ที่ถูกแท็กว่าเป็นพิษโดยตัวอธิบายประกอบส่วนใหญ่จะถูกส่งกลับในคุณลักษณะ 'spans'
ขนาดชุดข้อมูล :
5.81 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,000 |
'train' | 7,939 |
'validation' | 682 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
article_id | เทนเซอร์ | int32 | ||
วันที่สร้าง | เทนเซอร์ | สตริง | ||
รหัส | เทนเซอร์ | สตริง | ||
parent_id | เทนเซอร์ | int32 | ||
parent_text | ข้อความ | สตริง | ||
สิ่งพิมพ์_id | เทนเซอร์ | สตริง | ||
ช่วง | เทนเซอร์ | (ไม่มี,) | int32 | |
ข้อความ | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'spans')
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments/CivilCommentsInContext
คำอธิบายการกำหนดค่า : CivilComments ในบริบทเป็นชุดย่อยของ CivilComments ที่ถูกติดป้ายกำกับโดยการทำให้ parent_text พร้อมใช้งานสำหรับผู้ติดป้ายกำกับ ซึ่งรวมถึงคุณสมบัติบริบทความเป็นพิษ
ขนาดชุดข้อมูล :
9.63 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9,969 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
article_id | เทนเซอร์ | int32 | ||
บริบท_ความเป็นพิษ | เทนเซอร์ | ลอย32 | ||
วันที่สร้าง | เทนเซอร์ | สตริง | ||
รหัส | เทนเซอร์ | สตริง | ||
identity_attack | เทนเซอร์ | ลอย32 | ||
สบประมาท | เทนเซอร์ | ลอย32 | ||
ลามก | เทนเซอร์ | ลอย32 | ||
parent_id | เทนเซอร์ | int32 | ||
parent_text | ข้อความ | สตริง | ||
สิ่งพิมพ์_id | เทนเซอร์ | สตริง | ||
รุนแรง_เป็นพิษ | เทนเซอร์ | ลอย32 | ||
ทางเพศ_explicit | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง | ||
ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'toxicity')
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}