प्रदर्शन सुझाव

यह दस्तावेज़ TensorFlow डेटासेट (TFDS)-विशिष्ट प्रदर्शन युक्तियाँ प्रदान करता है। ध्यान दें कि TFDS डेटासेट को tf.data.Dataset ऑब्जेक्ट के रूप में प्रदान करता है, इसलिए tf.data गाइड की सलाह अभी भी लागू होती है।

बेंचमार्क डेटासेट

किसी भी tf.data.Dataset ऑब्जेक्ट को बेंचमार्क करने के लिए tfds.benchmark(ds) उपयोग करें।

परिणामों को सामान्य करने के लिए batch_size= को इंगित करना सुनिश्चित करें (उदाहरण के लिए 100 इटर/सेकंड -> 3200 पूर्व/सेकंड)। यह किसी भी पुनरावर्तनीय (जैसे tfds.benchmark(tfds.as_numpy(ds)) के साथ काम करता है।

ds = tfds.load('mnist', split='train').batch(32).prefetch()
# Display some benchmark statistics
tfds.benchmark(ds, batch_size=32)
# Second iteration is much faster, due to auto-caching
tfds.benchmark(ds, batch_size=32)

छोटे डेटासेट (1 जीबी से कम)

सभी TFDS डेटासेट डिस्क पर डेटा को TFRecord प्रारूप में संग्रहीत करते हैं। छोटे डेटासेट (जैसे MNIST, CIFAR-10/-100) के लिए, .tfrecord से पढ़ने पर महत्वपूर्ण ओवरहेड जुड़ सकता है।

चूंकि वे डेटासेट मेमोरी में फिट होते हैं, इसलिए डेटासेट को कैशिंग या प्री-लोड करके प्रदर्शन में उल्लेखनीय सुधार करना संभव है। ध्यान दें कि टीएफडीएस स्वचालित रूप से छोटे डेटासेट को कैश करता है (निम्न अनुभाग में विवरण है)।

डेटासेट को कैशिंग करना

यहां डेटा पाइपलाइन का एक उदाहरण दिया गया है जो छवियों को सामान्य करने के बाद डेटासेट को स्पष्ट रूप से कैश करता है।

def normalize_img(image, label):
  """Normalizes images: `uint8` -> `float32`."""
  return tf.cast(image, tf.float32) / 255., label


ds, ds_info = tfds.load(
    'mnist',
    split='train',
    as_supervised=True,  # returns `(img, label)` instead of dict(image=, ...)
    with_info=True,
)
# Applying normalization before `ds.cache()` to re-use it.
# Note: Random transformations (e.g. images augmentations) should be applied
# after both `ds.cache()` (to avoid caching randomness) and `ds.batch()` (for
# vectorization [1]).
ds = ds.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds = ds.cache()
# For true randomness, we set the shuffle buffer to the full dataset size.
ds = ds.shuffle(ds_info.splits['train'].num_examples)
# Batch after shuffling to get unique batches at each epoch.
ds = ds.batch(128)
ds = ds.prefetch(tf.data.experimental.AUTOTUNE)

इस डेटासेट पर पुनरावृत्ति करते समय, कैशिंग के कारण दूसरी पुनरावृत्ति पहले की तुलना में बहुत तेज़ होगी।

ऑटो-कैशिंग

डिफ़ॉल्ट रूप से, TFDS ऑटो-कैश ( ds.cache() के साथ) डेटासेट जो निम्नलिखित बाधाओं को पूरा करते हैं:

  • कुल डेटासेट आकार (सभी विभाजन) परिभाषित है और <250 MiB
  • shuffle_files अक्षम है, या केवल एक ही शार्ड पढ़ा जाता है

tfds.load में try_autocaching=False को tfds.ReadConfig पास करके ऑटो-कैशिंग से बाहर निकलना संभव है। यह देखने के लिए कि क्या कोई विशिष्ट डेटासेट ऑटो-कैश का उपयोग करेगा, डेटासेट कैटलॉग दस्तावेज़ पर एक नज़र डालें।

संपूर्ण डेटा को एकल टेंसर के रूप में लोड किया जा रहा है

यदि आपका डेटासेट मेमोरी में फिट बैठता है, तो आप संपूर्ण डेटासेट को एकल Tensor या NumPy सरणी के रूप में भी लोड कर सकते हैं। सभी उदाहरणों को एक ही tf.Tensor में बैच करने के लिए batch_size=-1 सेट करके ऐसा करना संभव है। फिर tf.Tensor से np.array में रूपांतरण के लिए tfds.as_numpy उपयोग करें।

(img_train, label_train), (img_test, label_test) = tfds.as_numpy(tfds.load(
    'mnist',
    split=['train', 'test'],
    batch_size=-1,
    as_supervised=True,
))

बड़े डेटासेट

बड़े डेटासेट को शार्प किया जाता है (कई फ़ाइलों में विभाजित किया जाता है) और आमतौर पर मेमोरी में फिट नहीं होते हैं, इसलिए उन्हें कैश नहीं किया जाना चाहिए।

फेरबदल और प्रशिक्षण

प्रशिक्षण के दौरान, डेटा को अच्छी तरह से फेरबदल करना महत्वपूर्ण है - खराब तरीके से फेरबदल किए गए डेटा के परिणामस्वरूप प्रशिक्षण सटीकता कम हो सकती है।

रिकॉर्ड्स को शफ़ल करने के लिए ds.shuffle उपयोग करने के अलावा, आपको कई फ़ाइलों में विभाजित बड़े डेटासेट के लिए अच्छा शफ़ल व्यवहार प्राप्त करने के लिए shuffle_files=True भी सेट करना चाहिए। अन्यथा, युग उसी क्रम में शार्ड पढ़ेंगे, और इसलिए डेटा वास्तव में यादृच्छिक नहीं होगा।

ds = tfds.load('imagenet2012', split='train', shuffle_files=True)

इसके अतिरिक्त, जब shuffle_files=True , TFDS options.deterministic को अक्षम कर देता है, जिससे प्रदर्शन को थोड़ा बढ़ावा मिल सकता है। नियतात्मक फेरबदल प्राप्त करने के लिए, tfds.ReadConfig के साथ इस सुविधा से ऑप्ट-आउट करना संभव है: या तो read_config.shuffle_seed सेट करके या read_config.options.deterministic ओवरराइट करके।

श्रमिकों के बीच अपना डेटा स्वचालित रूप से साझा करें (TF)

एकाधिक श्रमिकों पर प्रशिक्षण करते समय, आप tfds.ReadConfig के input_context तर्क का उपयोग कर सकते हैं, इसलिए प्रत्येक कार्यकर्ता डेटा का एक सबसेट पढ़ेगा।

input_context = tf.distribute.InputContext(
    input_pipeline_id=1,  # Worker id
    num_input_pipelines=4,  # Total number of workers
)
read_config = tfds.ReadConfig(
    input_context=input_context,
)
ds = tfds.load('dataset', split='train', read_config=read_config)

यह सबस्प्लिट एपीआई का पूरक है। सबसे पहले, सबप्लिट एपीआई लागू किया जाता है: train[:50%] पढ़ने के लिए फ़ाइलों की एक सूची में परिवर्तित किया जाता है। फिर, उन फ़ाइलों पर एक ds.shard() op लागू किया जाता है। उदाहरण के लिए, num_input_pipelines=2 के साथ train[:50%] का उपयोग करते समय, प्रत्येक 2 कर्मचारी 1/4 डेटा पढ़ेंगे।

जब shuffle_files=True , फ़ाइलें एक कार्यकर्ता के भीतर शफ़ल की जाती हैं, लेकिन सभी श्रमिकों के बीच नहीं। प्रत्येक कार्यकर्ता युगों के बीच फ़ाइलों के समान उपसमूह को पढ़ेगा।

श्रमिकों के बीच अपने डेटा को स्वचालित रूप से साझा करें (जैक्स)

जैक्स के साथ, आप अपने डेटा को श्रमिकों के बीच वितरित करने के लिए tfds.split_for_jax_process या tfds.even_splits API का उपयोग कर सकते हैं। स्प्लिट एपीआई गाइड देखें।

split = tfds.split_for_jax_process('train', drop_remainder=True)
ds = tfds.load('my_dataset', split=split)

tfds.split_for_jax_process इसके लिए एक सरल उपनाम है:

# The current `process_index` loads only `1 / process_count` of the data.
splits = tfds.even_splits('train', n=jax.process_count(), drop_remainder=True)
split = splits[jax.process_index()]

तेज़ छवि डिकोडिंग

डिफ़ॉल्ट रूप से, टीएफडीएस स्वचालित रूप से छवियों को डीकोड करता है। हालाँकि, ऐसे मामले हैं जहां tfds.decode.SkipDecoding के साथ छवि डिकोडिंग को छोड़ना और मैन्युअल रूप से tf.io.decode_image op को लागू करना अधिक प्रभावी हो सकता है:

  • उदाहरणों को फ़िल्टर करते समय ( tf.data.Dataset.filter के साथ), उदाहरणों को फ़िल्टर करने के बाद छवियों को डीकोड करने के लिए।
  • छवियों को क्रॉप करते समय, फ़्यूज्ड tf.image.decode_and_crop_jpeg ऑप का उपयोग करें।

दोनों उदाहरणों का कोड डिकोड गाइड में उपलब्ध है।

अप्रयुक्त सुविधाओं को छोड़ें

यदि आप केवल सुविधाओं के सबसेट का उपयोग कर रहे हैं, तो कुछ सुविधाओं को पूरी तरह से छोड़ना संभव है। यदि आपके डेटासेट में कई अप्रयुक्त सुविधाएं हैं, तो उन्हें डिकोड न करने से प्रदर्शन में काफी सुधार हो सकता है। https://www.tensorflow.org/datasets/decode#only_decode_a_sub-set_of_the_features देखें

tf.data मेरी सारी RAM का उपयोग करता है!

यदि आपकी रैम सीमित है, या यदि आप tf.data उपयोग करते समय समानांतर में कई डेटासेट लोड कर रहे हैं, तो यहां कुछ विकल्प दिए गए हैं जो मदद कर सकते हैं:

बफ़र आकार को ओवरराइड करें

builder.as_dataset(
  read_config=tfds.ReadConfig(
    ...
    override_buffer_size=1024,  # Save quite a bit of RAM.
  ),
  ...
)

यह TFRecordDataset (या समतुल्य) को दिए गए buffer_size ओवरराइड करता है: https://www.tensorflow.org/api_docs/python/tf/data/TFRecordDataset#args

जादुई व्यवहार को रोकने के लिए tf.data.Dataset.with_options का उपयोग करें

https://www.tensorflow.org/api_docs/python/tf/data/Dataset#with_options

options = tf.data.Options()

# Stop magic stuff that eats up RAM:
options.autotune.enabled = False
options.experimental_distribute.auto_shard_policy = (
  tf.data.experimental.AutoShardPolicy.OFF)
options.experimental_optimization.inject_prefetch = False

data = data.with_options(options)