dolma

Descrição :

Dolma: um corpus aberto de três trilhões de tokens para pesquisa de pré-treinamento de modelos de linguagem

Página inicial : https://github.com/allenai/dolma
Código fonte : tfds.datasets.dolma.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 9.61 TiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	3.403.336.408

Estrutura de recursos :

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Tipo D
	RecursosDict
adicionado	Texto	corda
criado	Texto	corda
eu ia	Texto	corda
fonte	Texto	corda
texto	Texto	corda

Chaves supervisionadas (consulte o documento as_supervised ): None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

dolma Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

dolma