Tài liệu tham khảo:
được gắn nhãn_cuối cùng
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:paws/labeled_final')
- Sự miêu tả :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
- Phiên bản : 1.1.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- Đặc trưng :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}
được gắn nhãn_swap
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:paws/labeled_swap')
- Sự miêu tả :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
- Phiên bản : 1.1.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 30397 |
- Đặc trưng :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}
không được gắn nhãn_cuối cùng
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:paws/unlabeled_final')
- Sự miêu tả :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
- Phiên bản : 1.1.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'train' | 645652 |
'validation' | 10000 |
- Đặc trưng :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}