- Descripción :
Este conjunto de datos contiene el punto de referencia de modelado de lenguaje PG-19. Incluye un conjunto de libros extraídos del proyecto de libros Project Gutenberg ( https://www.gutenberg.org ), que se publicaron antes de 1919. También contiene metadatos de títulos de libros y fechas de publicación. PG-19 tiene más del doble del tamaño del punto de referencia de Billion Word y contiene documentos que son 20 veces más largos, en promedio, que el punto de referencia de modelado de lenguaje de largo alcance de WikiText.
Los libros se dividen en un conjunto de tren, validación y prueba. Los metadatos de los libros se almacenan en metadata.csv que contiene (id_libro, título_corto_libro, fecha_publicación, enlace_libro).
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/deepmind/pg19
Código fuente :
tfds.datasets.pg19.Builder
Versiones :
-
0.1.1
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
10.94 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- Estructura de características :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
libro_id | Tensor | int32 | ||
enlace_libro | Tensor | cuerda | ||
libro_texto | Texto | cuerda | ||
Titulo del libro | Tensor | cuerda | ||
fecha de publicación | Tensor | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Descripción :
Este conjunto de datos contiene el punto de referencia de modelado de lenguaje PG-19. Incluye un conjunto de libros extraídos del proyecto de libros Project Gutenberg ( https://www.gutenberg.org ), que se publicaron antes de 1919. También contiene metadatos de títulos de libros y fechas de publicación. PG-19 tiene más del doble del tamaño del punto de referencia de Billion Word y contiene documentos que son 20 veces más largos, en promedio, que el punto de referencia de modelado de lenguaje de largo alcance de WikiText.
Los libros se dividen en un conjunto de tren, validación y prueba. Los metadatos de los libros se almacenan en metadata.csv que contiene (id_libro, título_corto_libro, fecha_publicación, enlace_libro).
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/deepmind/pg19
Código fuente :
tfds.datasets.pg19.Builder
Versiones :
-
0.1.1
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
10.94 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- Estructura de características :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
libro_id | Tensor | int32 | ||
enlace_libro | Tensor | cuerda | ||
libro_texto | Texto | cuerda | ||
Titulo del libro | Tensor | cuerda | ||
fecha de publicación | Tensor | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}