- Описание :
В существующих наборах данных идентификации перефразирования отсутствуют пары предложений с высоким лексическим перекрытием, но не являющиеся перефразированием. Модели, обученные на таких данных, не могут различать такие пары, как рейсы из Нью-Йорка во Флориду и рейсы из Флориды в Нью-Йорк. Этот набор данных содержит 108 463 пары, помеченные человеком, и 656 тыс. пар, помеченных шумом, которые показывают важность моделирования структуры, контекста и информации о порядке слов для проблемы идентификации парафраз.
Дополнительные сведения см. в сопроводительном документе: PAWS: Paraphrase Adversaries from Word Scrambling по адресу https://arxiv.org/abs/1904.01130 .
Этот корпус содержит пары, сгенерированные из страниц Википедии, содержащие пары, сгенерированные как методом замены слов, так и методом обратного перевода. Все пары имеют человеческие суждения как о перефразировании, так и о беглости, и они разделены на разделы «Обучение/Разработка/Тестирование».
Все файлы в формате tsv с четырьмя столбцами:
-
id
: уникальный идентификатор для каждой пары. -
sentence1
: Первое предложение. -
sentence2
: Второе предложение. -
(noisy_)label
: (Шумная) метка для каждой пары.
Каждая метка имеет два возможных значения: 0 указывает, что пара имеет другое значение, а 1 указывает, что пара является перефразированием.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research-datasets/paws
Исходный код :
tfds.datasets.paws_wiki.Builder
Версии :
-
1.0.0
: Начальная версия. -
1.1.0
(по умолчанию): Добавляет конфигурации в другое подмножество и поддерживает необработанный текст.
-
Размер загрузки :
57.47 MiB
Структура функции :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
этикетка | Метка класса | int64 | ||
предложение1 | Текст | нить | ||
предложение2 | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (конфигурация по умолчанию)
Описание конфигурации : Подмножество: labeled_final tokenized: True
Размер набора данных :
17.96 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 8000 |
'train' | 49 401 |
'validation' | 8000 |
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Описание конфигурации : Подмножество: labeled_final tokenized: False
Размер набора данных :
17.57 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 8000 |
'train' | 49 401 |
'validation' | 8000 |
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Описание конфигурации : Подмножество: labeled_swap tokenized: True
Размер набора данных :
8.79 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 30 397 |
- Примеры ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Описание конфигурации : Подмножество: labeled_swap tokenized: False
Размер набора данных :
8.60 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 30 397 |
- Примеры ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Описание конфигурации : Подмножество: unlabeled_final tokenized: True
Размер набора данных :
177.89 MiB
.Автоматическое кэширование ( документация ): Да (проверка), только когда
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'train' | 645 652 |
'validation' | 10 000 |
- Примеры ( tfds.as_dataframe ):