- Описание :
Этот набор данных содержит 23 659 оценочных пар PAWS, переведенных человеком, и 296 406 обучающих пар, переведенных машинным способом, на шести типологически различных языках:
- Французский
- испанский
- Немецкий
- китайский язык
- японский язык
- Корейский
Дополнительные сведения см. в сопроводительном документе: PAWS-X: набор межъязыковых состязательных данных для идентификации парафраз на https://arxiv.org/abs/1908.11828 .
Подобно набору данных PAWS, примеры разбиты на разделы «Обучение/Разработка/Тест». Все файлы в формате tsv с четырьмя столбцами:
-
id
: уникальный идентификатор для каждой пары. -
sentence1
: Первое предложение. -
sentence2
: Второе предложение. -
(noisy_)label
: (Шумная) метка для каждой пары.
Каждая метка имеет два возможных значения: 0 указывает на то, что пара имеет другое значение, а 1 указывает на то, что пара является парафразой.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research-datasets/paws/tree/master/pawsx
Исходный код :
tfds.datasets.paws_x_wiki.Builder
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
28.88 MiB
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
предложение1 | Текст | нить | ||
предложение2 | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (конфигурация по умолчанию)
Описание конфига : переведено на де
Размер набора данных :
15.27 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 380 |
'validation' | 2000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ru
Описание конфига : Переведено на en
Размер набора данных :
14.59 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 175 |
'validation' | 2000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/es
Описание конфига : переведено на es
Размер набора данных :
15.27 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 401 |
'validation' | 1961 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/fr
Описание конфигурации : переведено на фр.
Размер набора данных :
15.79 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 399 |
'validation' | 1988 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ja
Описание конфигурации : переведено на ja
Размер набора данных :
17.77 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 401 |
'validation' | 2000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ko
Описание конфигурации : переведено на ko
Размер набора данных :
16.42 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1999 |
'train' | 49 164 |
'validation' | 2000 |
- Примеры ( tfds.as_dataframe ):
paws_x_wiki/ж
Описание конфига : Переведено на zh
Размер набора данных :
13.20 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2000 |
'train' | 49 401 |
'validation' | 2000 |
- Примеры ( tfds.as_dataframe ):