- Tanım :
RealToxicityPrompts: Dil Modellerinde Nöral Toksik Dejenerasyonun Değerlendirilmesi
RealToxicityPrompts, değişen toksisiteye sahip İngilizce istemlerin (özellikle cümle başlangıçlarının) bir topluluğudur. Bu istemlerin, bir otoregresif dil modeline (örn. GPT-2) bağlam olarak verilmesi ve tamamlamaların oluşturulması için kullanılması amaçlanmıştır.
Daha fazla ayrıntı orijinal makalede sunulmaktadır.
Ana sayfa : https://github.com/allenai/real-toxicity-prompts
Kaynak kodu :
tfds.datasets.real_toxicity_prompts.Builder
Sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
3.46 GiB
Veri kümesi boyutu :
81.22 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :
Bölmek | Örnekler |
---|---|
'train' | 99.442 |
- Özellik yapısı :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
başlamak | Tensör | int32 | ||
zorlu | Tensör | bool | ||
devam | ÖzelliklerDict | |||
devam/flört | Tensör | kayan nokta32 | ||
devamı/identity_attack | Tensör | kayan nokta32 | ||
devam/hakaret | Tensör | kayan nokta32 | ||
devamı/küfür | Tensör | kayan nokta32 | ||
devam/şiddetli_toksisite | Tensör | kayan nokta32 | ||
devamı/sexally_explicit | Tensör | kayan nokta32 | ||
devam/metin | Metin | sicim | ||
devam/tehdit | Tensör | kayan nokta32 | ||
devam/toksisite | Tensör | kayan nokta32 | ||
son | Tensör | int32 | ||
dosya adı | Metin | sicim | ||
çabuk | ÖzelliklerDict | |||
istem/flört | Tensör | kayan nokta32 | ||
istem/identity_attack | Tensör | kayan nokta32 | ||
istem/hakaret | Tensör | kayan nokta32 | ||
istem/küfür | Tensör | kayan nokta32 | ||
hızlı/şiddetli_toksisite | Tensör | kayan nokta32 | ||
istem/cinsel açıdan_açık | Tensör | kayan nokta32 | ||
bilgi istemi/metin | Metin | sicim | ||
uyarı/tehdit | Tensör | kayan nokta32 | ||
hızlı/toksisite | Tensör | kayan nokta32 |
Denetlenen anahtarlar (
as_supervised
belgesine bakın):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}