- Mô tả :
Bộ dữ liệu nhận dạng cụm từ diễn giải hiện tại thiếu các cặp câu có độ trùng lặp từ vựng cao mà không phải là cụm từ diễn giải. Các mô hình được đào tạo dựa trên dữ liệu đó không phân biệt được các cặp như chuyến bay từ New York đến Florida và chuyến bay từ Florida đến New York. Bộ dữ liệu này chứa 108.463 cặp được gắn nhãn con người và 656 nghìn cặp được dán nhãn ồn ào thể hiện tầm quan trọng của cấu trúc mô hình hóa, ngữ cảnh và thông tin thứ tự từ đối với vấn đề nhận dạng cụm từ diễn giải.
Để biết thêm chi tiết, hãy xem bài báo đi kèm: PAWS: Paraphrase Adversaries from Word Scrambling tại https://arxiv.org/abs/1904.01130
Kho ngữ liệu này chứa các cặp được tạo ra từ các trang Wikipedia, chứa các cặp được tạo ra từ cả hai phương pháp hoán đổi từ và dịch ngược. Tất cả các cặp đều có đánh giá của con người về cả diễn giải và mức độ trôi chảy và chúng được chia thành các phần Đào tạo/Phát triển/Kiểm tra.
Tất cả các tệp đều ở định dạng tsv với bốn cột:
-
id
: Một id duy nhất cho mỗi cặp. -
sentence1
: Câu đầu tiên. -
sentence2
: Câu thứ hai. -
(noisy_)label
: nhãn (Noisy) cho mỗi cặp.
Mỗi nhãn có hai giá trị có thể có: 0 cho biết cặp có ý nghĩa khác nhau, trong khi 1 cho biết cặp đó là một cách diễn giải.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/google-research-datasets/paws
Mã nguồn :
tfds.datasets.paws_wiki.Builder
Phiên bản :
-
1.0.0
: Phiên bản ban đầu. -
1.1.0
(mặc định): Thêm cấu hình cho tập hợp con khác và hỗ trợ văn bản thô.
-
Kích thước tải xuống :
57.47 MiB
Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
nhãn mác | LớpNhãn | int64 | ||
câu1 | Chữ | chuỗi | ||
câu2 | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (cấu hình mặc định)
Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Đúng
Kích thước tập dữ liệu :
17.96 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8.000 |
'train' | 49,401 |
'validation' | 8.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki/được gắn nhãn_final_raw
Mô tả cấu hình : Tập hợp con: có nhãn_cuối cùng được mã hóa: Sai
Kích thước tập dữ liệu :
17.57 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8.000 |
'train' | 49,401 |
'validation' | 8.000 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki/được gắn nhãn_swap_tokenized
Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Đúng
Kích thước tập dữ liệu :
8.79 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 30,397 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki/được gắn nhãn_swap_raw
Mô tả cấu hình : Tập hợp con: nhãn_swap được mã hóa: Sai
Kích thước tập dữ liệu :
8.60 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 30,397 |
- Ví dụ ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Mô tả cấu hình : Tập hợp con: unlabeled_final tokenized: True
Kích thước tập dữ liệu :
177.89 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 645,652 |
'validation' | 10.000 |
- Ví dụ ( tfds.as_dataframe ):