gran_patente

  • Descripción :

BIGPATENT, que consta de 1,3 millones de registros de documentos de patentes estadounidenses junto con resúmenes abstractos escritos por humanos. Cada solicitud de patente estadounidense se presenta bajo un código de Clasificación Cooperativa de Patentes (CPC). Hay nueve categorías de clasificación de este tipo:

  • A (Necesidades Humanas),
  • B (realización de operaciones; transporte),
  • C (Química; Metalurgia),
  • D (Textiles; Papel),
  • E (construcciones fijas),
  • F (Ingeniería Mecánica; Rayos; Calefacción; Armas; Voladuras),
  • G (Física),
  • H (Electricidad), y
  • Y (Etiquetado general de tecnología nueva o transversal)

Hay dos características:

  • description: descripción detallada de la patente.
  • resumen: resumen de patente.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio : https://evasharma.github.io/bigpatent/

  • Código fuente : tfds.datasets.big_patent.Builder

  • Versiones :

    • 1.0.0 : palabras tokenizadas en minúsculas
    • 2.0.0 : Actualización para usar cadenas sin procesar en mayúsculas y minúsculas
    • 2.1.2 (predeterminado): corrige la actualización de las cadenas sin procesar en mayúsculas y minúsculas.
  • Tamaño de descarga : 9.45 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
abstracto Texto cadena
descripción Texto cadena
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (configuración predeterminada)

  • Descripción de la configuración : Patentes en todas las categorías.

  • Tamaño del conjunto de datos : 35.17 GiB

  • Divisiones :

Dividir Ejemplos
'test' 67,072
'train' 1,207,222
'validation' 67,068

gran_patente/a

  • Descripción de la configuración : Patentes según la Clasificación cooperativa de patentes (CPC)a: Necesidades humanas

  • Tamaño del conjunto de datos : 5.16 GiB

  • Divisiones :

Dividir Ejemplos
'test' 9,675
'train' 174,134
'validation' 9,674

patente_grande/b

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)b: Realización de Operaciones; Transporte

  • Tamaño del conjunto de datos : 4.06 GiB

  • Divisiones :

Dividir Ejemplos
'test' 8,974
'train' 161,520
'validation' 8,973

gran_patente/c

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)c: Química; Metalurgia

  • Tamaño del conjunto de datos : 3.63 GiB

  • Divisiones :

Dividir Ejemplos
'test' 5,614
'train' 101,042
'validation' 5,613

patente_grande/d

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)d: Textiles; Papel

  • Tamaño del conjunto de datos : 255.56 MiB

  • Divisiones :

Dividir Ejemplos
'test' 565
'train' 10,164
'validation' 565

gran_patente/e

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)e: Construcciones Fijas

  • Tamaño del conjunto de datos : 871.40 MiB

  • Divisiones :

Dividir Ejemplos
'test' 1,914
'train' 34,443
'validation' 1,914

gran_patente/f

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)f: Ingeniería Mecánica; Iluminación; Calefacción; armas; Voladura

  • Tamaño del conjunto de datos : 2.06 GiB

  • Divisiones :

Dividir Ejemplos
'test' 4,754
'train' 85,568
'validation' 4,754

gran_patente/g

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC)g: Física

  • Tamaño del conjunto de datos : 8.19 GiB

  • Divisiones :

Dividir Ejemplos
'test' 14,386
'train' 258,935
'validation' 14,385

gran_patente/h

  • Descripción de la configuración : Patentes bajo la Clasificación Cooperativa de Patentes (CPC)h: Electricidad

  • Tamaño del conjunto de datos : 7.50 GiB

  • Divisiones :

Dividir Ejemplos
'test' 14,279
'train' 257,019
'validation' 14,279

gran_patente/año

  • Descripción de la configuración : Patentes bajo Clasificación Cooperativa de Patentes (CPC) y: Etiquetado general de tecnología nueva o transversal

  • Tamaño del conjunto de datos : 3.46 GiB

  • Divisiones :

Dividir Ejemplos
'test' 6,911
'train' 124,397
'validation' 6,911