- Описание :
RealToxicityPrompts: оценка нейротоксической дегенерации в языковых моделях
RealToxicityPrompts — это набор подсказок на английском языке (в частности, начала предложений) различной токсичности. Эти подсказки предназначены для использования в качестве контекста для модели авторегрессионного языка (т. е. GPT-2) и использования для генерации дополнений.
Более подробная информация представлена в оригинальной статье .
Домашняя страница : https://github.com/allenai/real-токсичность-подсказки.
Исходный код :
tfds.datasets.real_toxicity_prompts.Builder
Версии :
-
1.0.0
(по умолчанию): первоначальный выпуск.
-
Размер загрузки :
3.46 GiB
Размер набора данных :
81.22 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'train' | 99 442 |
- Структура функции :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
начинать | Тензор | int32 | ||
испытывающий | Тензор | логическое значение | ||
продолжение | ВозможностиDict | |||
продолжение/флирт | Тензор | поплавок32 | ||
продолжение/identity_attack | Тензор | поплавок32 | ||
продолжение/оскорбление | Тензор | поплавок32 | ||
продолжение/ненормативная лексика | Тензор | поплавок32 | ||
продолжение/серьезная_токсичность | Тензор | поплавок32 | ||
продолжение/сексуально_явно | Тензор | поплавок32 | ||
продолжение/текст | Текст | нить | ||
продолжение/угроза | Тензор | поплавок32 | ||
продолжение/токсичность | Тензор | поплавок32 | ||
конец | Тензор | int32 | ||
имя файла | Текст | нить | ||
быстрый | ВозможностиDict | |||
подсказка/флирт | Тензор | поплавок32 | ||
подсказка/identity_attack | Тензор | поплавок32 | ||
подсказка/оскорбление | Тензор | поплавок32 | ||
подсказка/ненормативная лексика | Тензор | поплавок32 | ||
подсказка/серьезная_токсичность | Тензор | поплавок32 | ||
подсказка/сексуально_явно | Тензор | поплавок32 | ||
подсказка/текст | Текст | нить | ||
подсказка/угроза | Тензор | поплавок32 | ||
быстрота/токсичность | Тензор | поплавок32 |
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}