- Opis :
RealToxicityPromppts: Ocena toksycznego zwyrodnienia neuronów w modelach językowych
RealToxicityPrompts to zbiór angielskich podpowiedzi (w szczególności początków zdań) o różnej toksyczności. Podpowiedzi te mają służyć jako konteksty dla modelu języka autoregresyjnego (tj. GPT-2) i służyć do generowania uzupełnień.
Więcej szczegółów przedstawiono w artykule oryginalnym.
Strona główna : https://github.com/allenai/real-toksyczność-prompts
Kod źródłowy :
tfds.datasets.real_toxicity_prompts.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Rozmiar pliku do pobrania :
3.46 GiB
Rozmiar zbioru danych :
81.22 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'train' | 99 442 |
- Struktura funkcji :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
zaczynać | Napinacz | int32 | ||
wyzywający | Napinacz | bool | ||
kontynuacja | FunkcjeDykt | |||
kontynuacja/flirt | Napinacz | pływak32 | ||
kontynuacja/atak_tożsamości | Napinacz | pływak32 | ||
kontynuacja/obraza | Napinacz | pływak32 | ||
kontynuacja/wulgaryzmy | Napinacz | pływak32 | ||
kontynuacja/poważna_toksyczność | Napinacz | pływak32 | ||
kontynuacja/wyraźnie_seksualnie | Napinacz | pływak32 | ||
kontynuacja/tekst | Tekst | strunowy | ||
kontynuacja/zagrożenie | Napinacz | pływak32 | ||
kontynuacja/toksyczność | Napinacz | pływak32 | ||
koniec | Napinacz | int32 | ||
Nazwa pliku | Tekst | strunowy | ||
podpowiedź | FunkcjeDykt | |||
zachęta/flirt | Napinacz | pływak32 | ||
zachęta/atak_tożsamości | Napinacz | pływak32 | ||
podpowiedź/obrażenie | Napinacz | pływak32 | ||
podpowiedź/wulgaryzmy | Napinacz | pływak32 | ||
szybka/poważna_toksyczność | Napinacz | pływak32 | ||
podpowiedź/wyraźnie_seksualnie | Napinacz | pływak32 | ||
podpowiedź/tekst | Tekst | strunowy | ||
zachęta/groźba | Napinacz | pływak32 | ||
natychmiastowość/toksyczność | Napinacz | pływak32 |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}