- Descripción :
BIGPATENT, que consta de 1,3 millones de registros de documentos de patentes estadounidenses junto con resúmenes abstractos escritos por humanos. Cada solicitud de patente estadounidense se presenta bajo un código de Clasificación Cooperativa de Patentes (CPC). Hay nueve categorías de clasificación de este tipo:
- A (Necesidades Humanas),
- B (realización de operaciones; transporte),
- C (Química; Metalurgia),
- D (Textiles; Papel),
- E (construcciones fijas),
- F (Ingeniería Mecánica; Rayos; Calefacción; Armas; Voladuras),
- G (Física),
- H (Electricidad), y
- Y (Etiquetado general de tecnología nueva o transversal)
Hay dos características:
- description: descripción detallada de la patente.
resumen: resumen de patente.
Documentación adicional : Explore en Papers With Code
Página de inicio : https://evasharma.github.io/bigpatent/
Código fuente :
tfds.datasets.big_patent.Builder
Versiones :
-
1.0.0
: palabras tokenizadas en minúsculas -
2.0.0
: Actualización para usar cadenas sin procesar en mayúsculas y minúsculas -
2.1.2
(predeterminado): corrige la actualización de las cadenas sin procesar en mayúsculas y minúsculas.
-
Tamaño de descarga :
9.45 GiB
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'description': Text(shape=(), dtype=string),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
abstracto | Texto | cadena | ||
descripción | Texto | cadena |
Claves supervisadas (Ver como_documento
as_supervised
):('description', 'abstract')
Figura ( tfds.show_examples ): no compatible.
Cita :
@misc{sharma2019bigpatent,
title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
author={Eva Sharma and Chen Li and Lu Wang},
year={2019},
eprint={1906.03741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
big_patent/all (configuración predeterminada)
Descripción de la configuración : Patentes en todas las categorías.
Tamaño del conjunto de datos :
35.17 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 67,072 |
'train' | 1,207,222 |
'validation' | 67,068 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/a
Descripción de la configuración : Patentes según la Clasificación cooperativa de patentes (CPC)a: Necesidades humanas
Tamaño del conjunto de datos :
5.16 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 9,675 |
'train' | 174,134 |
'validation' | 9,674 |
- Ejemplos ( tfds.as_dataframe ):
patente_grande/b
Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)b: Realización de Operaciones; Transporte
Tamaño del conjunto de datos :
4.06 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 8,974 |
'train' | 161,520 |
'validation' | 8,973 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/c
Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)c: Química; Metalurgia
Tamaño del conjunto de datos :
3.63 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 5,614 |
'train' | 101,042 |
'validation' | 5,613 |
- Ejemplos ( tfds.as_dataframe ):
patente_grande/d
Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)d: Textiles; Papel
Tamaño del conjunto de datos :
255.56 MiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 565 |
'train' | 10,164 |
'validation' | 565 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/e
Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)e: Construcciones Fijas
Tamaño del conjunto de datos :
871.40 MiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 1,914 |
'train' | 34,443 |
'validation' | 1,914 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/f
Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)f: Ingeniería Mecánica; Iluminación; Calefacción; armas; Voladura
Tamaño del conjunto de datos :
2.06 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 4,754 |
'train' | 85,568 |
'validation' | 4,754 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/g
Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)g: Física
Tamaño del conjunto de datos :
8.19 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 14,386 |
'train' | 258,935 |
'validation' | 14,385 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/h
Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)h: Electricidad
Tamaño del conjunto de datos :
7.50 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 14,279 |
'train' | 257,019 |
'validation' | 14,279 |
- Ejemplos ( tfds.as_dataframe ):
gran_patente/año
Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC) y: Etiquetado general de tecnología nueva o transversal
Tamaño del conjunto de datos :
3.46 GiB
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 6,911 |
'train' | 124,397 |
'validation' | 6,911 |
- Ejemplos ( tfds.as_dataframe ):