- 설명 :
기존의 의역 식별 데이터 세트는 의역이 되지 않고 어휘 중첩이 높은 문장 쌍이 부족합니다. 이러한 데이터에 대해 훈련된 모델은 뉴욕에서 플로리다로의 항공편과 플로리다에서 뉴욕으로의 항공편과 같은 쌍을 구별하지 못합니다. 이 데이터 세트에는 패러프레이즈 식별 문제에 대한 모델링 구조, 컨텍스트 및 단어 순서 정보의 중요성을 특징으로 하는 108,463개의 인간 레이블 및 656k 잡음 레이블 쌍이 포함되어 있습니다.
자세한 내용은 다음 문서를 참조하십시오. PAWS: Paraphrase Adversaries from Word Scrambling at https://arxiv.org/abs/1904.01130
이 말뭉치에는 Wikipedia 페이지에서 생성된 쌍이 포함되어 있으며 단어 교환 및 역 번역 방법 모두에서 생성된 쌍을 포함합니다. 모든 쌍은 패러프레이징과 유창성에 대한 인간의 판단을 가지고 있으며 훈련/개발/테스트 섹션으로 나뉩니다.
모든 파일은 4개의 열이 있는 tsv 형식입니다.
-
id
: 각 쌍의 고유 ID입니다. -
sentence1
: 첫 번째 문장. -
sentence2
: 두 번째 문장. -
(noisy_)label
: 각 쌍에 대한 (잡음) 레이블입니다.
각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.
소스 코드 :
tfds.datasets.paws_wiki.Builder
버전 :
-
1.0.0
: 초기 버전. -
1.1.0
(기본값): 다른 하위 집합에 구성을 추가하고 원시 텍스트를 지원합니다.
-
다운로드 크기 :
57.47 MiB
기능 구조 :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
상표 | 클래스 레이블 | int64 | ||
문장1 | 텍스트 | 끈 | ||
문장2 | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized(기본 구성)
구성 설명 : 하위 집합:label_final 토큰화됨: True
데이터 세트 크기 :
17.96 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- 예 ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
구성 설명 : 하위 집합:label_final 토큰화됨: False
데이터 세트 크기 :
17.57 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- 예 ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
구성 설명 : 하위 집합:label_swap 토큰화: True
데이터 세트 크기 :
8.79 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 30,397 |
- 예 ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
구성 설명 : 하위 집합:label_swap 토큰화됨: False
데이터 세트 크기 :
8.60 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 30,397 |
- 예 ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
구성 설명 : 하위 집합: unlabeled_final 토큰화됨: True
데이터 세트 크기 :
177.89 MiB
자동 캐시 됨( 문서 ): 예(검증),
shuffle_files=False
인 경우에만(훈련)분할 :
나뉘다 | 예 |
---|---|
'train' | 645,652 |
'validation' | 10,000 |
- 예 ( tfds.as_dataframe ):