- Описание :
BIGPATENT, состоящий из 1,3 миллиона записей патентных документов США, а также реферативных резюме, написанных человеком. Каждая заявка на патент США подается под кодом Совместной патентной классификации (CPC). Таких классификационных категорий девять:
- А (человеческие потребности),
- B (выполнение операций; транспортировка),
- С (Химия; Металлургия),
- D (Текстиль; Бумага),
- E (стационарные конструкции),
- F (Машиностроение, Молния, Отопление, Оружие, Взрыв),
- Г (физика),
- H (Электричество) и
- Y (общая маркировка новой или кросс-секционной технологии)
Есть две особенности:
- описание: подробное описание патента.
резюме: Автореферат патента.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://evasharma.github.io/bigpatent/
Исходный код :
tfds.datasets.big_patent.Builder
Версии :
-
1.0.0
: токенизированные слова в нижнем регистре -
2.0.0
: Обновление для использования необработанных строк с регистром -
2.1.2
(по умолчанию): исправлено обновление необработанных строк с регистром.
-
Размер загрузки :
9.45 GiB
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
абстрактный | Текст | нить | ||
описание | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('description', 'abstract')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (конфигурация по умолчанию)
Описание конфигурации : Патенты по всем категориям.
Размер набора данных :
35.17 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 67 072 |
'train' | 1 207 222 |
'validation' | 67 068 |
- Примеры ( tfds.as_dataframe ):
большой_патент/а
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)a: Человеческие потребности
Размер набора данных :
5.16 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 9675 |
'train' | 174 134 |
'validation' | 9674 |
- Примеры ( tfds.as_dataframe ):
большой_патент/б
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)b: Выполнение операций; Транспортировка
Размер набора данных :
4.06 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 8974 |
'train' | 161 520 |
'validation' | 8973 |
- Примеры ( tfds.as_dataframe ):
big_patent/c
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)c: Химия; Металлургия
Размер набора данных :
3.63 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 5614 |
'train' | 101 042 |
'validation' | 5613 |
- Примеры ( tfds.as_dataframe ):
big_patent/d
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)d: Текстиль; Бумага
Размер набора данных :
255.56 MiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 565 |
'train' | 10 164 |
'validation' | 565 |
- Примеры ( tfds.as_dataframe ):
big_patent/е
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)e: Фиксированные конструкции
Размер набора данных :
871.40 MiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1914 |
'train' | 34 443 |
'validation' | 1914 |
- Примеры ( tfds.as_dataframe ):
big_patent/f
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)f: Машиностроение; Молния; Обогрев; Оружие; взрывные работы
Размер набора данных :
2.06 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 4754 |
'train' | 85 568 |
'validation' | 4754 |
- Примеры ( tfds.as_dataframe ):
большой_патент/г
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)g: Физика
Размер набора данных :
8.19 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 14 386 |
'train' | 258 935 |
'validation' | 14 385 |
- Примеры ( tfds.as_dataframe ):
big_patent/ч
Описание конфигурации : Патенты в соответствии с совместной патентной классификацией (CPC)h: Электричество
Размер набора данных :
7.50 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 14 279 |
'train' | 257 019 |
'validation' | 14 279 |
- Примеры ( tfds.as_dataframe ):
big_patent/г
Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)y: Общая маркировка новой или перекрестной технологии
Размер набора данных :
3.46 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6911 |
'train' | 124 397 |
'validation' | 6911 |
- Примеры ( tfds.as_dataframe ):