TFDS iki paket halinde bulunur:

  • pip install tensorflow-datasets : Birkaç ayda bir yayınlanan kararlı sürüm.
  • pip install tfds-nightly : Her gün yayınlanan, veri kümelerinin son sürümlerini içerir.

Bu ortak çalışma tfds-nightly kullanır:

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

Kullanılabilir veri kümelerini bulun

Tüm veri kümesi oluşturucuları, tfds.core.DatasetBuilder alt sınıfıdır. Mevcut inşaatçıların listesini almak için tfds.list_builders() kullanın veya kataloğumuza bakın.

Bir veri kümesi yükleyin


Bir veri kümesini yüklemenin en kolay yolu tfds.load . O olacak:

  1. Verileri indirin ve tfrecord dosyaları olarak kaydedin.
  2. tf.data.Dataset yükleyin ve tfrecord oluşturun.
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
Bazı yaygın argümanlar:

  • split= : Hangi bölme okunacak (örneğin 'train' , ['train', 'test'] , 'train[80%:]' ,...). Bölünmüş API kılavuzumuza bakın.
  • shuffle_files= : Dosyaların her dönem arasında karıştırılıp karıştırılmayacağını kontrol edin (TFDS, büyük veri kümelerini birden çok küçük dosyada depolar).
  • data_dir= : Veri kümesinin kaydedildiği konum (varsayılan olarak ~/tensorflow_datasets/ )
  • with_info=True : Veri kümesi meta verilerini içeren tfds.core.DatasetInfo döndürür
  • download=False : İndirmeyi devre dışı bırak


tfds.load , tfds.core.DatasetBuilder çevresinde ince bir sarmalayıcıdır. Aynı çıktıyı tfds.core.DatasetBuilder API'sini kullanarak da alabilirsiniz:

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI'yi oluşturur

Belirli bir veri kümesi oluşturmak istiyorsanız, tfds komut satırını kullanabilirsiniz. Örneğin:

tfds build mnist

Kullanılabilir bayraklar için dokümana bakın.

Bir veri kümesi üzerinde yineleme

dikte olarak

Varsayılan olarak, tf.data.Dataset nesnesi, tf.Tensor s'nin bir dict içerir:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
dict tuşu adlarını ve yapısını öğrenmek için kataloğumuzdaki veri kümesi belgelerine bakın. Örneğin: mnist belgeleri .

Tuple olarak ( as_supervised=True )

as_supervised=True kullanarak, denetlenen veri kümeleri yerine bir demet (features, label) alabilirsiniz.

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
Numpy olarak ( tfds.as_numpy )

Aşağıdakileri dönüştürmek için tfds.as_numpy kullanır:

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree isteğe bağlı olarak iç içe Dict , Tuple olabilir)
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
Toplu olarak tf.Tensor ( batch_size=-1 )

batch_size=-1 kullanarak, tüm veri kümesini tek bir toplu iş halinde yükleyebilirsiniz.

Bu, verileri (np.array, np.array) olarak almak için as_supervised=True ve tfds.as_numpy ile birleştirilebilir:

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

Veri kümenizin belleğe sığabileceğine ve tüm örneklerin aynı şekle sahip olmasına dikkat edin.

Veri kümelerinizi kıyaslayın

Bir veri kümesini kıyaslama, herhangi bir yinelenebilir (örneğin tf.data.Dataset , tfds.as_numpy ,...) üzerinde basit bir tfds.benchmark çağrısıdır.

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • batch_size= kwarg ile toplu iş boyutu başına sonuçları normalleştirmeyi unutmayın.
  • Özetle, ilk ısınma grubu, tf.data.Dataset ekstra kurulum süresini (örn. arabellek başlatma,...) yakalamak için diğerlerinden ayrılır.
  • TFDS otomatik önbelleğe alma nedeniyle ikinci yinelemenin nasıl daha hızlı olduğuna dikkat edin.
  • tfds.benchmark , daha fazla analiz için incelenebilecek bir tfds.core.BenchmarkResult döndürür.

Uçtan uca ardışık düzen oluşturun

Daha ileri gitmek için şunlara bakabilirsiniz:



tf.data.Dataset nesneleri, Colab üzerinde görselleştirilmek üzere pandas.DataFrame ile tfds.as_dataframe dönüştürülebilir.

  • Görüntüleri, sesleri, metinleri, videoları görselleştirmek için tfds.as_dataframe tfds.core.DatasetInfo ikinci argümanı olarak ekleyin...
  • Yalnızca ilk x örneğini görüntülemek için ds.take(x) kullanın. pandas.DataFrame , tüm veri kümesini belleğe yükler ve görüntülenmesi çok pahalı olabilir.
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
tfds.show_examples bir matplotlib.figure.Figure . Figure döndürür (şu anda yalnızca görüntü veri kümeleri desteklenir):

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
Veri kümesi meta verilerine erişin

Tüm oluşturucular, veri kümesi meta verilerini içeren bir tfds.core.DatasetInfo nesnesi içerir.

Şunlardan erişilebilir:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info = builder.info

Veri kümesi bilgisi, veri kümesi hakkında ek bilgiler içerir (sürüm, alıntı, ana sayfa, açıklama,...).

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

Özellikler meta verileri (etiket adları, görüntü şekli,...)

tfds.features.FeatureDict :

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

Sınıf sayısı, etiket adları:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

Şekiller, tipler:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

Bölünmüş meta veriler (ör. bölünmüş adlar, örnek sayısı,...)

tfds.core.SplitDict :

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

Mevcut bölmeler:

['test', 'train']

Bireysel bölünme hakkında bilgi alın:

Ayrıca alt bölünmüş API ile de çalışır:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

Sorun giderme

Manuel indirme (indirme başarısız olursa)

İndirme herhangi bir nedenle başarısız olursa (örn. çevrimdışı,...). Verileri her zaman kendiniz manuel olarak indirebilir ve manual_dir (varsayılanı ~/tensorflow_datasets/download/manual/ .

Hangi URL'lerin indirileceğini öğrenmek için şunlara bakın:


TFDS, indirilen url'lerin sağlama toplamlarını doğrulayarak determinizmi sağlar. NonMatchingChecksumError yükseltilirse, şunları gösterebilir:

  • Web sitesi kapalı olabilir (örn. 503 status code ). Lütfen url'yi kontrol edin.
  • Google Drive URL'leri için, aynı URL'ye çok fazla kişi eriştiğinde Drive bazen indirmeleri reddettiği için daha sonra tekrar deneyin. Hataya bakın
  • Orijinal veri kümesi dosyaları güncellenmiş olabilir. Bu durumda TFDS veri seti oluşturucu güncellenmelidir. Lütfen yeni bir Github sorunu veya PR açın:
    • Yeni sağlama toplamlarını tfds build --register_checksums ile kaydedin
    • Sonunda veri kümesi oluşturma kodunu güncelleyin.
    • Veri kümesini güncelleyin VERSION
    • Veri kümesini güncelleyin RELEASE_NOTES : Sağlama toplamlarının değişmesine ne sebep oldu? Bazı örnekler değişti mi?
    • Veri kümesinin hala oluşturulabildiğinden emin olun.
    • Bize bir PR gönderin


Bir makale için tensorflow-datasets kullanıyorsanız, kullanılan veri kümelerine özgü herhangi bir alıntıya ek olarak ( veri kümesi kataloğunda bulunabilir) lütfen aşağıdaki alıntıyı ekleyin.

  title = { {TensorFlow Datasets}, A collection of ready-to-use datasets},
  howpublished = {\url{https://www.tensorflow.org/datasets} },