TensorFlow डेटासेट

TFDS TensorFlow, Jax और अन्य मशीन लर्निंग फ्रेमवर्क के साथ उपयोग के लिए रेडी-टू-यूज़ डेटासेट का एक संग्रह प्रदान करता है।

यह डेटा को निश्चित रूप से डाउनलोड करने और तैयार करने और tf.data.Dataset (या np.array ) का निर्माण करता है।

TFDS दो पैकेजों में मौजूद है:

  • pip install tensorflow-datasets : स्थिर संस्करण, हर कुछ महीनों में जारी किया जाता है।
  • pip install tfds-nightly : हर दिन जारी किया जाता है, जिसमें डेटासेट के अंतिम संस्करण होते हैं।

यह कोलाब tfds-nightly का उपयोग करता है:

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

उपलब्ध डेटासेट खोजें

सभी डेटासेट निर्माता tfds.core.DatasetBuilder के उपवर्ग हैं। उपलब्ध बिल्डरों की सूची प्राप्त करने के लिए, tfds.list_builders() का उपयोग करें या हमारे कैटलॉग को देखें।


डेटासेट लोड करें


डेटासेट लोड करने का सबसे आसान तरीका tfds.load है। यह:

  1. डेटा डाउनलोड करें और इसे tfrecord फ़ाइलों के रूप में सहेजें।
  2. tfrecord tf.data.Dataset
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
2022-02-07 04:07:40.542243: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

कुछ सामान्य तर्क:

  • split= : पढ़ने के लिए कौन सा विभाजन (उदाहरण के लिए 'train' , ['train', 'test'] , 'train[80%:]' ,...)। हमारी स्प्लिट एपीआई गाइड देखें।
  • shuffle_files= : नियंत्रित करें कि प्रत्येक युग के बीच फ़ाइलों को फेरबदल करना है या नहीं (TFDS बड़े डेटासेट को कई छोटी फ़ाइलों में संग्रहीत करता है)।
  • data_dir= : वह स्थान जहाँ डेटासेट सहेजा जाता है (डिफ़ॉल्ट ~/tensorflow_datasets/ )
  • with_info=True : डेटासेट मेटाडेटा युक्त tfds.core.DatasetInfo लौटाता है
  • download=False : डाउनलोड अक्षम करें


tfds.load tfds.core.DatasetBuilder आसपास एक पतला आवरण है। आप tfds.core.DatasetBuilder API का उपयोग करके समान आउटपुट प्राप्त कर सकते हैं:

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build

यदि आप एक विशिष्ट डेटासेट उत्पन्न करना चाहते हैं, तो आप tfds कमांड लाइन का उपयोग कर सकते हैं। उदाहरण के लिए:

tfds build mnist

उपलब्ध झंडे के लिए दस्तावेज़ देखें।

डेटासेट पर पुनरावृति

तानाशाही के रूप में

डिफ़ॉल्ट रूप से, tf.data.Dataset ऑब्जेक्ट में dict s का एक tf.Tensor होता है:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:41.932638: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

dict कुंजी के नाम और संरचना का पता लगाने के लिए, हमारे कैटलॉग में डेटासेट दस्तावेज़ देखें। उदाहरण के लिए: mnist दस्तावेज़ीकरण

टपल के रूप में ( as_supervised=True )

as_supervised=True का उपयोग करके, आप पर्यवेक्षित डेटासेट के बजाय एक टपल (features, label) प्राप्त कर सकते हैं।

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:42.593594: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

सुन्न के रूप में ( tfds.as_numpy )

कन्वर्ट करने के लिए tfds.as_numpy का उपयोग करता है:

  • tf. np.array -> tf.Tensor
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree मनमाने ढंग से नेस्टेड Dict , Tuple हो सकता है)
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
2022-02-07 04:07:43.220027: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

बैच के रूप में tf.Tensor (batch_size batch_size=-1 )

batch_size=-1 का उपयोग करके, आप एक ही बैच में पूरा डेटासेट लोड कर सकते हैं।

डेटा को (np.array, np.array) के रूप में प्राप्त करने के लिए इसे as_supervised=True और tfds.as_numpy के साथ जोड़ा जा सकता है:

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

सावधान रहें कि आपका डेटासेट मेमोरी में फ़िट हो सकता है, और सभी उदाहरणों का आकार समान है।

अपने डेटासेट को बेंचमार्क करें

डेटासेट को बेंचमार्क करना किसी भी चलने योग्य (जैसे tf.data.Dataset , tfds.as_numpy ,...) पर एक साधारण tfds.benchmark कॉल है।

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • बैच_साइज batch_size= kwarg के साथ प्रति बैच आकार के परिणामों को सामान्य करना न भूलें।
  • संक्षेप में, पहले वार्मअप बैच को tf.data.Dataset अतिरिक्त सेटअप समय (जैसे बफ़र्स इनिशियलाइज़ेशन,...) को कैप्चर करने के लिए अन्य बैच से अलग किया जाता है।
  • ध्यान दें कि TFDS ऑटो-कैशिंग के कारण दूसरा पुनरावृत्ति कितना तेज़ है।
  • tfds.benchmark एक tfds.core.BenchmarkResult देता है जिसका आगे के विश्लेषण के लिए निरीक्षण किया जा सकता है।

एंड-टू-एंड पाइपलाइन बनाएं

आगे जाने के लिए, आप देख सकते हैं:



tf.data.Dataset ऑब्जेक्ट्स को pandas.DataFrame में pandas.DataFrame के साथ tfds.as_dataframe पर विज़ुअलाइज़ किया जा सकता है।

  • छवियों, ऑडियो, टेक्स्ट, वीडियो, की कल्पना करने के लिए tfds.as_dataframe को tfds.core.DatasetInfo के दूसरे तर्क के रूप में जोड़ें...
  • केवल पहले x उदाहरण प्रदर्शित करने के लिए ds.take(x) का उपयोग करें। pandas.DataFrame पूर्ण डेटासेट इन-मेमोरी लोड करेगा, और प्रदर्शित करने के लिए बहुत महंगा हो सकता है।
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
2022-02-07 04:07:47.001241: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


tfds.show_examples एक matplotlib.figure.Figure देता है (केवल छवि डेटासेट अब समर्थित है):

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
2022-02-07 04:07:48.083706: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


डेटासेट मेटाडेटा तक पहुंचें

सभी बिल्डरों में एक tfds.core.DatasetInfo ऑब्जेक्ट शामिल होता है जिसमें डेटासेट मेटाडेटा होता है।

इसके माध्यम से पहुँचा जा सकता है:

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info = builder.info

डेटासेट जानकारी में डेटासेट (संस्करण, उद्धरण, मुखपृष्ठ, विवरण,...) के बारे में अतिरिक्त जानकारी होती है।

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

विशेषताएं मेटाडेटा (लेबल नाम, छवि आकार,...)

tfds.features.FeatureDict तक पहुँचें:

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

कक्षाओं की संख्या, लेबल नाम:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

आकार, प्रकार:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

विभाजित मेटाडेटा (जैसे विभाजित नाम, उदाहरणों की संख्या,...)

tfds.core.SplitDict पर पहुँचें:

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

उपलब्ध विभाजन:

['test', 'train']

व्यक्तिगत विभाजन के बारे में जानकारी प्राप्त करें:


यह सबस्प्लिट एपीआई के साथ भी काम करता है:

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

समस्या निवारण

मैन्युअल डाउनलोड (यदि डाउनलोड विफल हो जाता है)

यदि किसी कारण से डाउनलोड विफल हो जाता है (जैसे ऑफ़लाइन,...)। आप हमेशा मैन्युअल रूप से डेटा को स्वयं डाउनलोड कर सकते हैं और इसे मैन्युअल_दिर में रख सकते हैं (डिफ़ॉल्ट ~/ manual_dir ~/tensorflow_datasets/download/manual/ .

यह पता लगाने के लिए कि कौन से url डाउनलोड करने हैं, इसमें देखें:

NonMatchingChecksumError ठीक करना

TFDS डाउनलोड किए गए url के चेकसम को मान्य करके नियतत्ववाद सुनिश्चित करता है। यदि NonMatchingChecksumError उठाया जाता है, तो यह संकेत कर सकता है:

  • वेबसाइट डाउन हो सकती है (जैसे 503 status code )। कृपया यूआरएल जांचें।
  • Google डिस्क URL के लिए, बाद में पुन: प्रयास करें क्योंकि जब बहुत से लोग एक ही URL तक पहुंचते हैं तो डिस्क कभी-कभी डाउनलोड को अस्वीकार कर देती है। बग देखें
  • मूल डेटासेट फ़ाइलें अपडेट की गई हो सकती हैं। इस मामले में TFDS डेटासेट बिल्डर को अपडेट किया जाना चाहिए। कृपया एक नया जीथब मुद्दा या पीआर खोलें:
    • नए चेकसम को tfds build --register_checksums के साथ पंजीकृत करें
    • अंततः डेटासेट जनरेशन कोड अपडेट करें।
    • डेटासेट VERSION अपडेट करें
    • डेटासेट अपडेट करें RELEASE_NOTES : चेकसम बदलने का क्या कारण है ? क्या कुछ उदाहरण बदल गए?
    • सुनिश्चित करें कि डेटासेट अभी भी बनाया जा सकता है।
    • हमें एक जनसंपर्क भेजें


यदि आप किसी पेपर के लिए tensorflow-datasets का उपयोग कर रहे हैं, तो कृपया उपयोग किए गए डेटासेट (जो डेटासेट कैटलॉग में पाया जा सकता है) के लिए विशिष्ट उद्धरण के अलावा निम्नलिखित उद्धरण शामिल करें।

  title = { {TensorFlow Datasets}, A collection of ready-to-use datasets},
  howpublished = {\url{https://www.tensorflow.org/datasets} },