paws_wiki

Mô tả :

Bộ dữ liệu nhận dạng cụm từ diễn giải hiện tại thiếu các cặp câu có độ trùng lặp từ vựng cao mà không phải là cụm từ diễn giải. Các mô hình được đào tạo dựa trên dữ liệu đó không phân biệt được các cặp như chuyến bay từ New York đến Florida và chuyến bay từ Florida đến New York. Bộ dữ liệu này chứa 108.463 cặp được gắn nhãn con người và 656 nghìn cặp được dán nhãn ồn ào thể hiện tầm quan trọng của cấu trúc mô hình hóa, ngữ cảnh và thông tin thứ tự từ đối với vấn đề nhận dạng cụm từ diễn giải.

Để biết thêm chi tiết, hãy xem bài báo đi kèm: PAWS: Paraphrase Adversaries from Word Scrambling tại https://arxiv.org/abs/1904.01130

Kho ngữ liệu này chứa các cặp được tạo ra từ các trang Wikipedia, chứa các cặp được tạo ra từ cả hai phương pháp hoán đổi từ và dịch ngược. Tất cả các cặp đều có đánh giá của con người về cả diễn giải và mức độ trôi chảy và chúng được chia thành các phần Đào tạo/Phát triển/Kiểm tra.

Tất cả các tệp đều ở định dạng tsv với bốn cột:

id : Một id duy nhất cho mỗi cặp.
sentence1 : Câu đầu tiên.
sentence2 : Câu thứ hai.
(noisy_)label : nhãn (Noisy) cho mỗi cặp.

Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/paws
Mã nguồn : tfds.datasets.paws_wiki.Builder
Phiên bản :
- 1.0.0 : Phiên bản ban đầu.
- 1.1.0 (mặc định): Thêm cấu hình cho tập hợp con khác và hỗ trợ văn bản thô.
Kích thước tải xuống : 57.47 MiB
Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
nhãn mác	LớpNhãn	int64
câu1	Chữ	chuỗi
câu2	Chữ	chuỗi

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (cấu hình mặc định)

Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Đúng
Kích thước tập dữ liệu : 17.96 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	8.000
`'train'`	49,401
`'validation'`	8.000

Ví dụ ( tfds.as_dataframe ):

paws_wiki/được gắn nhãn_final_raw

Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Sai
Kích thước tập dữ liệu : 17.57 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'test'`	8.000
`'train'`	49,401
`'validation'`	8.000

Ví dụ ( tfds.as_dataframe ):

paws_wiki/được gắn nhãn_swap_tokenized

Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Đúng
Kích thước tập dữ liệu : 8.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'train'`	30,397

Ví dụ ( tfds.as_dataframe ):

paws_wiki/được gắn nhãn_swap_raw

Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Sai
Kích thước tập dữ liệu : 8.60 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :

Tách ra	ví dụ
`'train'`	30,397

Ví dụ ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Mô tả cấu hình : Tập hợp con: unlabeled_final tokenized: True
Kích thước tập dữ liệu : 177.89 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (xác thực), Chỉ khi shuffle_files=False (đào tạo)
Chia tách :

Tách ra	ví dụ
`'train'`	645,652
`'validation'`	10.000

Ví dụ ( tfds.as_dataframe ):

paws_wiki Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.