Set di dati TensorFlow

TFDS fornisce una raccolta di set di dati pronti per l'uso da utilizzare con TensorFlow, Jax e altri framework di Machine Learning.

Gestisce il download e la preparazione dei dati in modo deterministico e la costruzione di un (o np.array ).

TFDS esiste in due pacchetti:

  • pip install tensorflow-datasets : la versione stabile, rilasciata ogni pochi mesi.
  • pip install tfds-nightly : rilasciato ogni giorno, contiene le ultime versioni dei set di dati.

Questa colab usa tfds-nightly :

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

Trova i set di dati disponibili

Tutti i costruttori di set di dati sono sottoclassi di tfds.core.DatasetBuilder . Per ottenere l'elenco dei builder disponibili, usa tfds.list_builders() o guarda il nostro catalogo .


Carica un set di dati


Il modo più semplice per caricare un set di dati è tfds.load . Lo farà:

  1. Scarica i dati e salvali come file tfrecord .
  2. Carica il tfrecord e crea il .
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds,
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
Alcuni argomenti comuni:

  • split= : quale split leggere (ad es 'train' , ['train', 'test'] , 'train[80%:]' ,...). Consulta la nostra guida alle API divise .
  • shuffle_files= : controlla se mescolare i file tra ogni epoca (TFDS memorizza grandi set di dati in più file più piccoli).
  • data_dir= : Posizione in cui viene salvato il set di dati (predefinito su ~/tensorflow_datasets/ )
  • with_info=True : Restituisce tfds.core.DatasetInfo contenente i metadati del set di dati
  • download=False : Disabilita il download


tfds.load è un sottile wrapper attorno a tfds.core.DatasetBuilder . Puoi ottenere lo stesso output utilizzando l'API tfds.core.DatasetBuilder :

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the ``
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI

Se desideri generare un set di dati specifico, puoi utilizzare la riga di comando tfds . Per esempio:

tfds build mnist

Consulta il documento per i flag disponibili.

Iterare su un set di dati

Come dict

Per impostazione predefinita, l'oggetto contiene un dict di tf.Tensor s:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
Per scoprire i nomi e la struttura delle chiavi dict , guarda la documentazione del set di dati nel nostro catalogo . Ad esempio: documentazione mnist .

Come tupla ( as_supervised=True )

Usando as_supervised=True , puoi ottenere una tupla (features, label) invece per i set di dati supervisionati.

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
Come numpy ( tfds.as_numpy )

Usa tfds.as_numpy per convertire:

  • tf.Tensor -> np.array
  • -> Iterator[Tree[np.array]] ( Tree può essere nidificato arbitrariamente Dict , Tuple )
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
Come batch tf.Tensor ( batch_size=-1 )

Usando batch_size=-1 , puoi caricare l'intero set di dati in un unico batch.

Questo può essere combinato con as_supervised=True e tfds.as_numpy per ottenere i dati come (np.array, np.array) :

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

Fai attenzione che il tuo set di dati possa stare in memoria e che tutti gli esempi abbiano la stessa forma.

Confronta i tuoi set di dati

Il benchmarking di un set di dati è una semplice chiamata tfds.benchmark su qualsiasi iterabile (ad esempio , tfds.as_numpy ,...).

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • Non dimenticare di normalizzare i risultati per dimensione batch con batch_size= kwarg.
  • Nel riepilogo, il primo batch di riscaldamento è separato dagli altri per acquisire il tempo di configurazione aggiuntivo di (ad es. inizializzazione dei buffer,...).
  • Nota come la seconda iterazione sia molto più veloce grazie alla memorizzazione nella cache automatica di TFDS .
  • tfds.benchmark restituisce un tfds.core.BenchmarkResult che può essere ispezionato per ulteriori analisi.

Costruisci una pipeline end-to-end

Per andare oltre, puoi guardare:



Gli oggetti possono essere convertiti in pandas.DataFrame con tfds.as_dataframe per essere visualizzati su Colab .

  • Aggiungi tfds.core.DatasetInfo come secondo argomento di tfds.as_dataframe per visualizzare immagini, audio, testi, video,...
  • Usa ds.take(x) per visualizzare solo i primi x esempi. pandas.DataFrame caricherà l'intero set di dati in memoria e può essere molto costoso da visualizzare.
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
tfds.show_examples restituisce un matplotlib.figure.Figure (ora sono supportati solo i set di dati di immagini):

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
Accedi ai metadati del set di dati

Tutti i builder includono un oggetto tfds.core.DatasetInfo contenente i metadati del set di dati.

Vi si accede tramite:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info =

Le informazioni sul set di dati contengono informazioni aggiuntive sul set di dati (versione, citazione, homepage, descrizione,...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available:},

Presenta i metadati (nomi delle etichette, forma dell'immagine,...)

Accedi a tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

Numero di classi, nomi di etichette:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

Forme, tipi d:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

Dividi metadati (ad es. nomi divisi, numero di esempi,...)

Accedi a tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

Spaccature disponibili:

['test', 'train']

Ottieni informazioni sulla divisione individuale:


Funziona anche con l'API subsplit:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

Risoluzione dei problemi

Download manuale (se il download non riesce)

Se il download non riesce per qualche motivo (ad es. offline,...). Puoi sempre scaricare manualmente i dati da solo e inserirli nella manual_dir (predefinita ~/tensorflow_datasets/download/manual/ .

Per scoprire quali URL scaricare, guarda in:

Correzione NonMatchingChecksumError

TFDS garantisce il determinismo convalidando i checksum degli URL scaricati. Se viene generato NonMatchingChecksumError , potrebbe indicare:

  • Il sito Web potrebbe essere inattivo (ad es. 503 status code ). Si prega di controllare l'URL.
  • Per gli URL di Google Drive, riprova più tardi poiché Drive a volte rifiuta i download quando troppe persone accedono allo stesso URL. Vedi bug
  • I file dei set di dati originali potrebbero essere stati aggiornati. In questo caso, il generatore di set di dati TFDS dovrebbe essere aggiornato. Si prega di aprire un nuovo problema Github o PR:
    • Registra i nuovi checksum con tfds build --register_checksums
    • Eventualmente aggiornare il codice di generazione del set di dati.
    • Aggiorna la VERSION del set di dati
    • Aggiorna il set di dati RELEASE_NOTES : cosa ha causato la modifica dei checksum? Alcuni esempi sono cambiati?
    • Assicurati che il set di dati possa ancora essere creato.
    • Inviaci un PR


Se stai utilizzando tensorflow-datasets per un documento, includi la seguente citazione, oltre a qualsiasi citazione specifica per i dataset utilizzati (che può essere trovata nel catalogo del dataset ).

  title = { {TensorFlow Datasets}, A collection of ready-to-use datasets},
  howpublished = {\url{} },