lm1b

Referencias:

texto_sin formato

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:lm1b/plain_text')

A benchmark corpus to be used for measuring progress in statistical language modeling. This has almost one billion words in the training data.

Dividir	Ejemplos
`'test'`	306688
`'train'`	30301028

{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2024-11-25 (UTC).