- Descrizione :
Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.
I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/deepmind/pg19
Codice sorgente :
tfds.datasets.pg19.Builder
Versioni :
-
0.1.1
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
10.94 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
id_libro | Tensore | int32 | ||
collegamento_libro | Tensore | corda | ||
libro_testo | Testo | corda | ||
titolo del libro | Tensore | corda | ||
data di pubblicazione | Tensore | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Descrizione :
Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.
I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/deepmind/pg19
Codice sorgente :
tfds.datasets.pg19.Builder
Versioni :
-
0.1.1
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensioni del download :
Unknown size
Dimensione del set di dati:
10.94 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Struttura delle caratteristiche :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
id_libro | Tensore | int32 | ||
collegamento_libro | Tensore | corda | ||
libro_testo | Testo | corda | ||
titolo del libro | Tensore | corda | ||
data di pubblicazione | Tensore | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}