- Descriptif :
BIGPATENT, composé de 1,3 million d'enregistrements de documents de brevets américains ainsi que de résumés abstraits écrits par des humains. Chaque demande de brevet américain est déposée sous un code de classification coopérative des brevets (CPC). Il existe neuf catégories de classification de ce type :
- A (nécessités humaines),
- B (Exécution d'opérations ; Transport),
- C (Chimie; Métallurgie),
- D (Textile; Papier),
- E (Constructions Fixes),
- F (Génie Mécanique ; Foudre ; Chauffage ; Armes ; Dynamitage),
- G (Physique),
- H (Électricité), et
- Y (marquage général des technologies nouvelles ou transversales)
Il existe deux fonctionnalités :
- description : description détaillée du brevet.
résumé : Abrégé de brevet.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : https://evasharma.github.io/bigpatent/
Code source :
tfds.datasets.big_patent.Builder
Versions :
-
1.0.0
: mots symbolisés en minuscules -
2.0.0
: Mise à jour pour utiliser les chaînes brutes en casse -
2.1.2
(par défaut) : Correction de la mise à jour des chaînes brutes en casse.
-
Taille du téléchargement :
9.45 GiB
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
abstrait | Texte | chaîne | ||
description | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):('description', 'abstract')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (configuration par défaut)
Description de la configuration : Brevets sous toutes les catégories.
Taille du jeu de données :
35.17 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 67 072 |
'train' | 1 207 222 |
'validation' | 67 068 |
- Exemples ( tfds.as_dataframe ):
big_patent/a
Description de la configuration : Brevets sous classification coopérative des brevets (CPC)a : nécessités humaines
Taille du jeu de données :
5.16 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 675 |
'train' | 174 134 |
'validation' | 9 674 |
- Exemples ( tfds.as_dataframe ):
big_patent/b
Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)b : exécution d'opérations ; Transport
Taille du jeu de données :
4.06 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 974 |
'train' | 161 520 |
'validation' | 8 973 |
- Exemples ( tfds.as_dataframe ):
big_patent/c
Description de la configuration : Brevets sous classification coopérative des brevets (CPC)c : chimie ; Métallurgie
Taille du jeu de données :
3.63 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 5 614 |
'train' | 101 042 |
'validation' | 5 613 |
- Exemples ( tfds.as_dataframe ):
big_patent/d
Description de la configuration : Brevets relevant de la classification coopérative des brevets (CPC)d : textiles ; Papier
Taille du jeu de données :
255.56 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 565 |
'train' | 10 164 |
'validation' | 565 |
- Exemples ( tfds.as_dataframe ):
big_patent/e
Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)e : Constructions Fixes
Taille du jeu de données :
871.40 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 914 |
'train' | 34 443 |
'validation' | 1 914 |
- Exemples ( tfds.as_dataframe ):
big_patent/f
Description de la configuration : Brevets relevant de la Classification coopérative des brevets (CPC)f : Génie mécanique ; Foudre; Chauffage; Armes; Dynamitage
Taille du jeu de données :
2.06 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 754 |
'train' | 85 568 |
'validation' | 4 754 |
- Exemples ( tfds.as_dataframe ):
big_patent/g
Description de la configuration : Brevets sous classification coopérative des brevets (CPC) g : physique
Taille du jeu de données :
8.19 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 14 386 |
'train' | 258 935 |
'validation' | 14 385 |
- Exemples ( tfds.as_dataframe ):
big_patent/h
Description de la configuration : Brevets sous Classification Coopérative des Brevets (CPC)h : Électricité
Taille du jeu de données :
7.50 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 14 279 |
'train' | 257 019 |
'validation' | 14 279 |
- Exemples ( tfds.as_dataframe ):
big_patent/y
Description de la configuration : Brevets sous classification coopérative des brevets (CPC) y : étiquetage général des technologies nouvelles ou transversales
Taille du jeu de données :
3.46 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 911 |
'train' | 124 397 |
'validation' | 6 911 |
- Exemples ( tfds.as_dataframe ):