- 설명 :
RealToxicityPrompts: 언어 모델에서 신경 독성 변성 평가
RealToxicityPrompts는 다양한 독성을 지닌 영어 프롬프트(특히 문장 시작)의 모음입니다. 이러한 프롬프트는 자동 회귀 언어 모델(예: GPT-2)에 대한 컨텍스트로 제공되고 완성을 생성하는 데 사용됩니다.
자세한 내용은 원본 논문 에 나와 있습니다.
버전 :
-
1.0.0
(기본값): 최초 릴리스입니다.
-
다운로드 크기 :
3.46 GiB
데이터세트 크기 :
81.22 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 99,442 |
- 기능 구조 :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- 기능 문서 :
특징 | 수업 | 모양 | Dtype | 설명 |
---|---|---|---|---|
특징Dict | ||||
시작하다 | 텐서 | 정수32 | ||
도전적인 | 텐서 | 부울 | ||
계속 | 특징Dict | |||
계속/희롱 | 텐서 | float32 | ||
연속/identity_attack | 텐서 | float32 | ||
계속/모욕 | 텐서 | float32 | ||
계속/욕설 | 텐서 | float32 | ||
지속/심각한_독성 | 텐서 | float32 | ||
계속/성적으로 노골적인 | 텐서 | float32 | ||
계속/텍스트 | 텍스트 | 끈 | ||
지속/위협 | 텐서 | float32 | ||
지속성/독성 | 텐서 | float32 | ||
끝 | 텐서 | 정수32 | ||
파일 이름 | 텍스트 | 끈 | ||
즉각적인 | 특징Dict | |||
프롬프트/희롱 | 텐서 | float32 | ||
프롬프트/identity_attack | 텐서 | float32 | ||
프롬프트/모욕 | 텐서 | float32 | ||
프롬프트/욕설 | 텐서 | float32 | ||
프롬프트/심각한_독성 | 텐서 | float32 | ||
프롬프트/성적으로 노골적인 | 텐서 | float32 | ||
프롬프트/텍스트 | 텍스트 | 끈 | ||
프롬프트/위협 | 텐서 | float32 | ||
프롬프트/독성 | 텐서 | float32 |
감독되는 키 (
as_supervised
doc 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}