مراجع:
labeled_final
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:paws/labeled_final')
- وصف :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- الترخيص : يمكن استخدام مجموعة البيانات بحرية لأي غرض، على الرغم من أن الاعتراف بشركة Google LLC ("Google") كمصدر للبيانات سيكون موضع تقدير. يتم توفير مجموعة البيانات "كما هي" دون أي ضمان، صريحًا أو ضمنيًا. تُخلي Google مسؤوليتها الكاملة عن أي أضرار، مباشرة أو غير مباشرة، تنتج عن استخدام مجموعة البيانات.
- الإصدار : 1.1.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- سمات :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}
labeled_swap
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:paws/labeled_swap')
- وصف :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- الترخيص : يمكن استخدام مجموعة البيانات بحرية لأي غرض، على الرغم من أن الاعتراف بشركة Google LLC ("Google") كمصدر للبيانات سيكون موضع تقدير. يتم توفير مجموعة البيانات "كما هي" دون أي ضمان، صريحًا أو ضمنيًا. تُخلي Google مسؤوليتها الكاملة عن أي أضرار، مباشرة أو غير مباشرة، تنتج عن استخدام مجموعة البيانات.
- الإصدار : 1.1.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 30397 |
- سمات :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}
unlabeled_final
استخدم الأمر التالي لتحميل مجموعة البيانات هذه في TFDS:
ds = tfds.load('huggingface:paws/unlabeled_final')
- وصف :
PAWS: Paraphrase Adversaries from Word Scrambling
This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.
For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)
PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.
Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
- الترخيص : يمكن استخدام مجموعة البيانات بحرية لأي غرض، على الرغم من أن الاعتراف بشركة Google LLC ("Google") كمصدر للبيانات سيكون موضع تقدير. يتم توفير مجموعة البيانات "كما هي" دون أي ضمان، صريحًا أو ضمنيًا. تُخلي Google مسؤوليتها الكاملة عن أي أضرار، مباشرة أو غير مباشرة، تنتج عن استخدام مجموعة البيانات.
- الإصدار : 1.1.0
- الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 645652 |
'validation' | 10000 |
- سمات :
{
"id": {
"dtype": "int32",
"id": null,
"_type": "Value"
},
"sentence1": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"sentence2": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"label": {
"num_classes": 2,
"names": [
"0",
"1"
],
"names_file": null,
"id": null,
"_type": "ClassLabel"
}
}