Conjuntos de datos de TensorFlow

TFDS proporciona una colección de conjuntos de datos listos para usar para usar con TensorFlow, Jax y otros marcos de aprendizaje automático.

Se encarga de descargar y preparar los datos de manera determinista y construir un (o np.array ).

Ver en Ejecutar en Google Colab Ver fuente en GitHub Descargar libreta


TFDS existe en dos paquetes:

  • pip install tensorflow-datasets : La versión estable, lanzada cada pocos meses.
  • pip install tfds-nightly : Publicado todos los días, contiene las últimas versiones de los conjuntos de datos.

Esta colaboración usa tfds-nightly :

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

Buscar conjuntos de datos disponibles

Todos los constructores de conjuntos de datos son una subclase de tfds.core.DatasetBuilder . Para obtener la lista de constructores disponibles, use tfds.list_builders() o consulte nuestro catálogo .


Cargar un conjunto de datos


La forma más fácil de cargar un conjunto de datos es tfds.load . Va a:

  1. Descargue los datos y guárdelos como archivos tfrecord .
  2. Cargue el tfrecord y cree el .
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds,
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
2022-02-07 04:07:40.542243: E tensorflow/stream_executor/cuda/] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

Algunos argumentos comunes:

  • split= : Qué división leer (por ejemplo 'train' , ['train', 'test'] , 'train[80%:]' ,...). Consulte nuestra guía de API dividida .
  • shuffle_files= : controle si se mezclan los archivos entre cada época (TFDS almacena grandes conjuntos de datos en varios archivos más pequeños).
  • data_dir= : ubicación donde se guarda el conjunto de datos (el valor predeterminado es ~/tensorflow_datasets/ )
  • with_info=True : Devuelve el tfds.core.DatasetInfo que contiene metadatos del conjunto de datos
  • download=False : Deshabilitar descarga


tfds.load es un contenedor delgado alrededor tfds.core.DatasetBuilder . Puede obtener el mismo resultado con la API tfds.core.DatasetBuilder :

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the ``
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

CLI tfds build

Si desea generar un conjunto de datos específico, puede usar la línea de comando tfds . Por ejemplo:

tfds build mnist

Consulte el documento para ver las banderas disponibles.

Iterar sobre un conjunto de datos

como dictado

De forma predeterminada, el objeto contiene un dict de tf.Tensor s:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:41.932638: W tensorflow/core/kernels/data/] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

Para conocer los nombres y la estructura de las claves de dict , consulte la documentación del conjunto de datos en nuestro catálogo . Por ejemplo: documentación mnist .

Como tupla ( as_supervised=True )

Al usar as_supervised=True , puede obtener una tupla (features, label) en lugar de conjuntos de datos supervisados.

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:42.593594: W tensorflow/core/kernels/data/] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

Como numpy ( tfds.as_numpy )

Utiliza tfds.as_numpy para convertir:

  • tf.Tensor -> np.array
  • -> Iterator[Tree[np.array]] ( Tree puede ser Dict anidado arbitrariamente, Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
2022-02-07 04:07:43.220027: W tensorflow/core/kernels/data/] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

Como tf.Tensor por lotes ( batch_size=-1 )

Al usar batch_size=-1 , puede cargar el conjunto de datos completo en un solo lote.

Esto se puede combinar con as_supervised=True y tfds.as_numpy para obtener los datos como (np.array, np.array) :

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

Tenga cuidado de que su conjunto de datos quepa en la memoria y de que todos los ejemplos tengan la misma forma.

Compare sus conjuntos de datos

La evaluación comparativa de un conjunto de datos es una simple llamada tfds.benchmark en cualquier iterable (por ejemplo, , tfds.as_numpy ,...).

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • No olvide normalizar los resultados por tamaño de lote con batch_size= kwarg.
  • En el resumen, el primer lote de calentamiento se separa de los demás para capturar el tiempo adicional de configuración de (por ejemplo, inicialización de búferes,...).
  • Observe cómo la segunda iteración es mucho más rápida debido al almacenamiento automático en caché de TFDS .
  • tfds.benchmark devuelve un tfds.core.BenchmarkResult que se puede inspeccionar para un análisis más detallado.

Cree una canalización de extremo a extremo

Para ir más lejos, puedes mirar:



Los objetos se pueden convertir a pandas.DataFrame con tfds.as_dataframe para visualizarlos en Colab .

  • Agrega tfds.core.DatasetInfo como segundo argumento de tfds.as_dataframe para visualizar imágenes, audio, textos, videos,...
  • Use ds.take(x) para mostrar solo los primeros x ejemplos. pandas.DataFrame cargará el conjunto de datos completo en la memoria y puede ser muy costoso mostrarlo.
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
2022-02-07 04:07:47.001241: W tensorflow/core/kernels/data/] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


tfds.show_examples devuelve matplotlib.figure.Figure (ahora solo se admiten conjuntos de datos de imágenes):

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
2022-02-07 04:07:48.083706: W tensorflow/core/kernels/data/] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


Acceder a los metadatos del conjunto de datos

Todos los constructores incluyen un objeto tfds.core.DatasetInfo que contiene los metadatos del conjunto de datos.

Se puede acceder a través de:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info =

La información del conjunto de datos contiene información adicional sobre el conjunto de datos (versión, cita, página de inicio, descripción,...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available:},

Incluye metadatos (nombres de etiquetas, forma de imagen,...)

Acceda a tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

Número de clases, nombres de etiquetas:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

Formas, tipos de d:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

Metadatos divididos (por ejemplo, nombres divididos, número de ejemplos,...)

Acceda a tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

Divisiones disponibles:

['test', 'train']

Obtenga información sobre la división individual:


También funciona con la API subdividida:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

Solución de problemas

Descarga manual (si la descarga falla)

Si la descarga falla por algún motivo (por ejemplo, sin conexión,...). Siempre puede descargar manualmente los datos usted mismo y colocarlos en manual_dir (el valor predeterminado es ~/tensorflow_datasets/download/manual/ .

Para saber qué URL descargar, busque en:

Arreglando NonMatchingChecksumError

TFDS garantiza el determinismo al validar las sumas de verificación de las URL descargadas. Si se NonMatchingChecksumError , podría indicar:

  • El sitio web puede estar inactivo (por ejemplo 503 status code ). Por favor, compruebe la dirección URL.
  • Para las URL de Google Drive, vuelva a intentarlo más tarde, ya que Drive a veces rechaza las descargas cuando demasiadas personas acceden a la misma URL. ver error
  • Es posible que se hayan actualizado los archivos de conjuntos de datos originales. En este caso, se debe actualizar el generador de conjuntos de datos TFDS. Abra un nuevo problema de Github o PR:
    • Registre las nuevas sumas de verificación con tfds build --register_checksums
    • Eventualmente, actualice el código de generación del conjunto de datos.
    • Actualice la VERSION del conjunto de datos
    • Actualice el conjunto de datos RELEASE_NOTES : ¿Qué causó que cambiaran las sumas de verificación? ¿Cambiaron algunos ejemplos?
    • Asegúrese de que el conjunto de datos aún se pueda construir.
    • Envíanos un PR


Si está utilizando conjuntos de datos de tensorflow-datasets para un documento, incluya la siguiente cita, además de cualquier cita específica de los conjuntos de datos utilizados (que se pueden encontrar en el catálogo de conjuntos de datos).

  title = { {TensorFlow Datasets}, A collection of ready-to-use datasets},
  howpublished = {\url{} },