paws_wiki

설명 :

기존의 의역 식별 데이터 세트는 의역이 되지 않고 어휘 중첩이 높은 문장 쌍이 부족합니다. 이러한 데이터에 대해 훈련된 모델은 뉴욕에서 플로리다로의 항공편과 플로리다에서 뉴욕으로의 항공편과 같은 쌍을 구별하지 못합니다. 이 데이터 세트에는 패러프레이즈 식별 문제에 대한 모델링 구조, 컨텍스트 및 단어 순서 정보의 중요성을 특징으로 하는 108,463개의 인간 레이블 및 656k 잡음 레이블 쌍이 포함되어 있습니다.

자세한 내용은 다음 문서를 참조하십시오. PAWS: Paraphrase Adversaries from Word Scrambling at https://arxiv.org/abs/1904.01130

이 말뭉치에는 Wikipedia 페이지에서 생성된 쌍이 포함되어 있으며 단어 교환 및 역 번역 방법 모두에서 생성된 쌍을 포함합니다. 모든 쌍은 패러프레이징과 유창성에 대한 인간의 판단을 가지고 있으며 훈련/개발/테스트 섹션으로 나뉩니다.

모든 파일은 4개의 열이 있는 tsv 형식입니다.

id : 각 쌍의 고유 ID입니다.
sentence1 : 첫 번째 문장.
sentence2 : 두 번째 문장.
(noisy_)label : 각 쌍에 대한 (잡음) 레이블입니다.

각 레이블에는 두 가지 가능한 값이 있습니다. 0은 쌍이 다른 의미를 가지고 있음을 나타내고 1은 쌍이 의역임을 나타냅니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/google-research-datasets/paws
소스 코드 : tfds.datasets.paws_wiki.Builder
버전 :
- 1.0.0 : 초기 버전.
- 1.1.0 (기본값): 다른 하위 집합에 구성을 추가하고 원시 텍스트를 지원합니다.
다운로드 크기 : 57.47 MiB
기능 구조 :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
상표	클래스 레이블	int64
문장1	텍스트	끈
문장2	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized(기본 구성)

구성 설명 : 하위 집합:label_final 토큰화됨: True
데이터 세트 크기 : 17.96 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

예 ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

구성 설명 : 하위 집합:label_final 토큰화됨: False
데이터 세트 크기 : 17.57 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

예 ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

구성 설명 : 하위 집합:label_swap 토큰화: True
데이터 세트 크기 : 8.79 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'train'`	30,397

예 ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

구성 설명 : 하위 집합:label_swap 토큰화됨: False
데이터 세트 크기 : 8.60 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'train'`	30,397

예 ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

구성 설명 : 하위 집합: unlabeled_final 토큰화됨: True
데이터 세트 크기 : 177.89 MiB
자동 캐시 됨( 문서 ): 예(검증), shuffle_files=False 인 경우에만(훈련)
분할 :

나뉘다	예
`'train'`	645,652
`'validation'`	10,000

예 ( tfds.as_dataframe ):

paws_wiki 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.