paws-x

Tài liệu tham khảo:

vi

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/en')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

de

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/de')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

es

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/es')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

bạn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/fr')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

à

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/ja')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

ko

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/ko')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

zh

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:paws-x/zh')
  • Sự miêu tả :
PAWS-X, a multilingual version of PAWS (Paraphrase Adversaries from Word Scrambling) for six languages.

This dataset contains 23,659 human translated PAWS evaluation pairs and 296,406 machine
translated training pairs in six typologically distinct languages: French, Spanish, German,
Chinese, Japanese, and Korean. English language is available by default. All translated
pairs are sourced from examples in PAWS-Wiki.

For further details, see the accompanying paper: PAWS-X: A Cross-lingual Adversarial Dataset
for Paraphrase Identification (https://arxiv.org/abs/1908.11828)

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'test' 2000
'train' 49401
'validation' 2000
  • Đặc trưng :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}