- คำอธิบาย :
RealToxicityPrompts: การประเมินความเสื่อมของพิษต่อระบบประสาทในแบบจำลองภาษา
RealToxicityPrompts เป็นคลังข้อความแจ้งภาษาอังกฤษ (โดยเฉพาะจุดเริ่มต้นของประโยค) ของความเป็นพิษที่แตกต่างกัน ข้อความแจ้งเหล่านี้มีไว้เพื่อใช้เป็นบริบทของโมเดลภาษาแบบถอยหลังอัตโนมัติ (เช่น GPT-2) และใช้สำหรับสร้างความสมบูรณ์
รายละเอียดเพิ่มเติมแสดงอยู่ใน รายงาน ต้นฉบับ
ซอร์สโค้ด :
tfds.datasets.real_toxicity_prompts.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
3.46 GiB
ขนาดชุดข้อมูล :
81.22 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 99,442 |
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เริ่ม | เทนเซอร์ | int32 | ||
ที่ท้าทาย | เทนเซอร์ | บูล | ||
ความต่อเนื่อง | คุณสมบัติDict | |||
ความต่อเนื่อง/การเกี้ยวพาราสี | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/identity_attack | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/การดูถูก | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/คำหยาบคาย | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/ความเป็นพิษรุนแรง | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง / ทางเพศ_ชัดเจน | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/ข้อความ | ข้อความ | เชือก | ||
ความต่อเนื่อง/ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความต่อเนื่อง/ความเป็นพิษ | เทนเซอร์ | ลอย32 | ||
จบ | เทนเซอร์ | int32 | ||
ชื่อไฟล์ | ข้อความ | เชือก | ||
พร้อมท์ | คุณสมบัติDict | |||
พรอมต์/เกี้ยวพาราสี | เทนเซอร์ | ลอย32 | ||
พรอมต์/identity_attack | เทนเซอร์ | ลอย32 | ||
พรอมต์/ดูถูก | เทนเซอร์ | ลอย32 | ||
พรอมต์/คำหยาบคาย | เทนเซอร์ | ลอย32 | ||
prompt/severe_toxicity | เทนเซอร์ | ลอย32 | ||
พรอมต์ / ทางเพศ_โจ่งแจ้ง | เทนเซอร์ | ลอย32 | ||
พรอมต์/ข้อความ | ข้อความ | เชือก | ||
พรอมต์/ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
พรอมต์/ความเป็นพิษ | เทนเซอร์ | ลอย32 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}