lm1b

Referências:

texto_simples

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:lm1b/plain_text')

A benchmark corpus to be used for measuring progress in statistical language modeling. This has almost one billion words in the training data.

Dividir	Exemplos
`'test'`	306688
`'train'`	30301028

{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2024-11-06 UTC.