- Sự miêu tả :
RealToxicityPrompts: Đánh giá sự thoái hóa chất độc thần kinh trong các mô hình ngôn ngữ
RealToxicityPrompts là một tập hợp các lời nhắc bằng tiếng Anh (cụ thể là phần đầu câu) với nhiều mức độ độc hại khác nhau. Những lời nhắc này nhằm mục đích đưa ra dưới dạng ngữ cảnh cho mô hình ngôn ngữ tự hồi quy (tức là GPT-2) và được sử dụng để tạo các phần hoàn thành.
Thông tin chi tiết được trình bày trong bài báo gốc.
Trang chủ : https://github.com/allenai/real-toxity-prompts
Mã nguồn :
tfds.datasets.real_toxicity_prompts.Builder
Phiên bản :
-
1.0.0
(mặc định): Bản phát hành đầu tiên.
-
Kích thước tải xuống :
3.46 GiB
Kích thước tập dữ liệu :
81.22 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Có
Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 99.442 |
- Cấu trúc tính năng :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
bắt đầu | Tenxơ | int32 | ||
thách thức | Tenxơ | bool | ||
sự tiếp tục | Tính năngDict | |||
tiếp tục/tán tỉnh | Tenxơ | phao32 | ||
tiếp tục/danh tính_tấn công | Tenxơ | phao32 | ||
tiếp tục/xúc phạm | Tenxơ | phao32 | ||
tiếp tục/tục tĩu | Tenxơ | phao32 | ||
tiếp tục/độc tính nghiêm trọng | Tenxơ | phao32 | ||
tiếp tục/tình dục_rõ ràng | Tenxơ | phao32 | ||
tiếp tục/văn bản | Chữ | sợi dây | ||
tiếp tục/đe dọa | Tenxơ | phao32 | ||
tiếp tục/độc tính | Tenxơ | phao32 | ||
kết thúc | Tenxơ | int32 | ||
tên tập tin | Chữ | sợi dây | ||
lời nhắc | Tính năngDict | |||
nhắc nhở/tán tỉnh | Tenxơ | phao32 | ||
nhắc/nhận dạng_tấn công | Tenxơ | phao32 | ||
nhắc nhở/xúc phạm | Tenxơ | phao32 | ||
nhắc nhở/thô tục | Tenxơ | phao32 | ||
nhắc nhở/nghiêm trọng_độc tính | Tenxơ | phao32 | ||
nhắc nhở/tình dục_rõ ràng | Tenxơ | phao32 | ||
lời nhắc/văn bản | Chữ | sợi dây | ||
nhắc nhở/đe dọa | Tenxơ | phao32 | ||
nhanh chóng/độc tính | Tenxơ | phao32 |
Khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}