प्रारूप-विशिष्ट डेटासेट बिल्डर्स

यह मार्गदर्शिका वर्तमान में टीएफडीएस में उपलब्ध सभी प्रारूप-विशिष्ट डेटासेट बिल्डरों का दस्तावेजीकरण करती है।

प्रारूप-विशिष्ट डेटासेट बिल्डर्स tfds.core.GeneratorBasedBuilder के उपवर्ग हैं जो एक विशिष्ट डेटा प्रारूप के लिए अधिकांश डेटा प्रोसेसिंग का ख्याल रखते हैं।

tf.data.Dataset पर आधारित डेटासेट

यदि आप किसी ऐसे डेटासेट से टीएफडीएस डेटासेट बनाना चाहते हैं जो tf.data.Dataset ( संदर्भ ) प्रारूप में है, तो आप tfds.dataset_builders.TfDataBuilder ( एपीआई दस्तावेज़ देखें) का उपयोग कर सकते हैं।

हम इस वर्ग के दो विशिष्ट उपयोगों की कल्पना करते हैं:

  • नोटबुक जैसे वातावरण में प्रयोगात्मक डेटासेट बनाना
  • कोड में डेटासेट बिल्डर को परिभाषित करना

नोटबुक से एक नया डेटासेट बनाना

मान लीजिए कि आप एक नोटबुक में काम कर रहे हैं, कुछ डेटा को tf.data.Dataset के रूप में लोड किया है, विभिन्न परिवर्तन (मैप, फ़िल्टर, आदि) लागू किए हैं और अब आप इस डेटा को संग्रहीत करना चाहते हैं और इसे आसानी से टीम के साथियों के साथ साझा करना चाहते हैं या अन्य नोटबुक में लोड करना चाहते हैं। एक नए डेटासेट बिल्डर वर्ग को परिभाषित करने के बजाय, आप एक tfds.dataset_builders.TfDataBuilder को इंस्टेंट कर सकते हैं और अपने डेटासेट को TFDS डेटासेट के रूप में संग्रहीत करने के लिए download_and_prepare कॉल कर सकते हैं।

क्योंकि यह एक टीएफडीएस डेटासेट है, आप इसका संस्करण बना सकते हैं, कॉन्फ़िगरेशन का उपयोग कर सकते हैं, अलग-अलग विभाजन कर सकते हैं और बाद में आसान उपयोग के लिए इसका दस्तावेजीकरण कर सकते हैं। इसका मतलब है कि आपको टीएफडीएस को यह भी बताना होगा कि आपके डेटासेट में क्या विशेषताएं हैं।

आप इसका उपयोग कैसे कर सकते हैं इसका एक डमी उदाहरण यहां दिया गया है।

import tensorflow as tf
import tensorflow_datasets as tfds

my_ds_train = tf.data.Dataset.from_tensor_slices({"number": [1, 2, 3]})
my_ds_test = tf.data.Dataset.from_tensor_slices({"number": [4, 5]})

# Optionally define a custom `data_dir`.
# If None, then the default data dir is used.
custom_data_dir = "/my/folder"

# Define the builder.
single_number_builder = tfds.dataset_builders.TfDataBuilder(
    name="my_dataset",
    config="single_number",
    version="1.0.0",
    data_dir=custom_data_dir,
    split_datasets={
        "train": my_ds_train,
        "test": my_ds_test,
    },
    features=tfds.features.FeaturesDict({
        "number": tfds.features.Scalar(dtype=tf.int64),
    }),
    description="My dataset with a single number.",
    release_notes={
        "1.0.0": "Initial release with numbers up to 5!",
    }
)

# Make the builder store the data as a TFDS dataset.
single_number_builder.download_and_prepare()

download_and_prepare विधि इनपुट tf.data.Dataset s पर पुनरावृत्त होगी और संबंधित TFDS डेटासेट को /my/folder/my_dataset/single_number/1.0.0 में संग्रहीत करेगी, जिसमें ट्रेन और परीक्षण विभाजन दोनों शामिल होंगे।

config तर्क वैकल्पिक है और यदि आप एक ही डेटासेट के अंतर्गत विभिन्न कॉन्फ़िगरेशन संग्रहीत करना चाहते हैं तो यह उपयोगी हो सकता है।

data_dir तर्क का उपयोग जेनरेट किए गए TFDS डेटासेट को एक अलग फ़ोल्डर में संग्रहीत करने के लिए किया जा सकता है, उदाहरण के लिए अपने स्वयं के सैंडबॉक्स में यदि आप इसे दूसरों के साथ (अभी तक) साझा नहीं करना चाहते हैं। ध्यान दें कि ऐसा करते समय, आपको data_dir tfds.load पर भी पास करना होगा। यदि data_dir तर्क निर्दिष्ट नहीं है, तो डिफ़ॉल्ट TFDS डेटा dir का उपयोग किया जाएगा।

आपका डेटासेट लोड हो रहा है

टीएफडीएस डेटासेट संग्रहीत होने के बाद, इसे अन्य स्क्रिप्ट से या टीम के साथियों द्वारा लोड किया जा सकता है यदि उनके पास डेटा तक पहुंच है:

# If no custom data dir was specified:
ds_test = tfds.load("my_dataset/single_number", split="test")

# When there are multiple versions, you can also specify the version.
ds_test = tfds.load("my_dataset/single_number:1.0.0", split="test")

# If the TFDS was stored in a custom folder, then it can be loaded as follows:
custom_data_dir = "/my/folder"
ds_test = tfds.load("my_dataset/single_number:1.0.0", split="test", data_dir=custom_data_dir)

एक नया संस्करण या कॉन्फ़िगरेशन जोड़ना

अपने डेटासेट पर आगे पुनरावृत्ति करने के बाद, आपने स्रोत डेटा के कुछ परिवर्तनों को जोड़ा या बदल दिया होगा। इस डेटासेट को संग्रहीत और साझा करने के लिए, आप इसे नए संस्करण के रूप में आसानी से संग्रहीत कर सकते हैं।

def add_one(example):
  example["number"] = example["number"] + 1
  return example

my_ds_train_v2 = my_ds_train.map(add_one)
my_ds_test_v2 = my_ds_test.map(add_one)

single_number_builder_v2 = tfds.dataset_builders.TfDataBuilder(
    name="my_dataset",
    config="single_number",
    version="1.1.0",
    data_dir=custom_data_dir,
    split_datasets={
        "train": my_ds_train_v2,
        "test": my_ds_test_v2,
    },
    features=tfds.features.FeaturesDict({
        "number": tfds.features.Scalar(dtype=tf.int64, doc="Some number"),
    }),
    description="My dataset with a single number.",
    release_notes={
        "1.1.0": "Initial release with numbers up to 6!",
        "1.0.0": "Initial release with numbers up to 5!",
    }
)

# Make the builder store the data as a TFDS dataset.
single_number_builder_v2.download_and_prepare()

एक नए डेटासेट बिल्डर वर्ग को परिभाषित करना

आप इस क्लास के आधार पर एक नया DatasetBuilder भी परिभाषित कर सकते हैं।

import tensorflow as tf
import tensorflow_datasets as tfds

class MyDatasetBuilder(tfds.dataset_builders.TfDataBuilder):
  def __init__(self):
    ds_train = tf.data.Dataset.from_tensor_slices([1, 2, 3])
    ds_test = tf.data.Dataset.from_tensor_slices([4, 5])
    super().__init__(
        name="my_dataset",
        version="1.0.0",
        split_datasets={
            "train": ds_train,
            "test": ds_test,
        },
        features=tfds.features.FeaturesDict({
            "number": tfds.features.Scalar(dtype=tf.int64),
        }),
        config="single_number",
        description="My dataset with a single number.",
        release_notes={
            "1.0.0": "Initial release with numbers up to 5!",
        })

क्रोइसैंटबिल्डर

प्रारूप

क्रोइसैन 🥐 मशीन लर्निंग डेटासेट के लिए एक उच्च-स्तरीय प्रारूप है जो मेटाडेटा, संसाधन फ़ाइल विवरण, डेटा संरचना और डिफ़ॉल्ट एमएल शब्दार्थ को एक ही फ़ाइल में जोड़ता है; यह मौजूदा डेटासेट के साथ काम करता है ताकि उन्हें ढूंढना, उपयोग करना और टूल के साथ समर्थन करना आसान हो सके।

क्रोइसैंट schema.org और इसकी sc:Dataset शब्दावली पर आधारित है, जो वेब पर डेटासेट का प्रतिनिधित्व करने और उन्हें खोजने योग्य बनाने के लिए व्यापक रूप से उपयोग किया जाने वाला प्रारूप है।

CroissantBuilder

एक CroissantBuilder एक क्रोइसैन 🥐 मेटाडेटा फ़ाइल के आधार पर एक टीएफडीएस डेटासेट को परिभाषित करता है; निर्दिष्ट प्रत्येक record_set_ids का परिणाम एक अलग ConfigBuilder होगा।

उदाहरण के लिए, इसकी क्रोइसैन 🥐 परिभाषा का उपयोग करके एमएनआईएसटी डेटासेट के लिए एक CroissantBuilder आरंभ करने के लिए:

import tensorflow_datasets as tfds
builder = tfds.dataset_builders.CroissantBuilder(
    jsonld="https://raw.githubusercontent.com/mlcommons/croissant/main/datasets/0.8/huggingface-mnist/metadata.json",
    file_format='array_record',
)
builder.download_and_prepare()
ds = builder.as_data_source()
print(ds['default'][0])

सीओएनएलएल

प्रारूप

CoNLL एक लोकप्रिय प्रारूप है जिसका उपयोग एनोटेटेड टेक्स्ट डेटा को प्रस्तुत करने के लिए किया जाता है।

सीओएनएलएल-स्वरूपित डेटा में आमतौर पर प्रति पंक्ति भाषाई एनोटेशन के साथ एक टोकन होता है; एक ही पंक्ति में, एनोटेशन आमतौर पर रिक्त स्थान या टैब द्वारा अलग किए जाते हैं। खाली पंक्तियाँ वाक्य की सीमाओं को दर्शाती हैं।

एक उदाहरण के रूप में conll2003 डेटासेट से निम्नलिखित वाक्य पर विचार करें, जो CoNLL एनोटेशन प्रारूप का अनुसरण करता है:

U.N. NNP I-NP I-ORG official
NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP
I-LOC . . O O

ConllDatasetBuilder

TFDS में एक नया CoNLL-आधारित डेटासेट जोड़ने के लिए, आप अपने डेटासेट बिल्डर क्लास को tfds.dataset_builders.ConllDatasetBuilder पर आधारित कर सकते हैं। इस बेस क्लास में CoNLL डेटासेट की विशिष्टताओं से निपटने के लिए सामान्य कोड शामिल है (कॉलम-आधारित प्रारूप पर पुनरावृत्ति, सुविधाओं और टैग की पूर्व-संकलित सूचियां, ...)।

tfds.dataset_builders.ConllDatasetBuilder एक CoNLL-विशिष्ट GeneratorBasedBuilder लागू करता है। CoNLL डेटासेट बिल्डर के न्यूनतम उदाहरण के रूप में निम्नलिखित वर्ग को देखें:

from tensorflow_datasets.core.dataset_builders.conll import conll_dataset_builder_utils as conll_lib
import tensorflow_datasets.public_api as tfds

class MyCoNNLDataset(tfds.dataset_builders.ConllDatasetBuilder):
  VERSION = tfds.core.Version('1.0.0')
  RELEASE_NOTES = {'1.0.0': 'Initial release.'}

  # conllu_lib contains a set of ready-to-use CONLL-specific configs.
  BUILDER_CONFIGS = [conll_lib.CONLL_2003_CONFIG]

  def _info(self) -> tfds.core.DatasetInfo:
    return self.create_dataset_info(
        # ...
    )

  def _split_generators(self, dl_manager):
    path = dl_manager.download_and_extract('https://data-url')

    return {'train': self._generate_examples(path=path / 'train.txt'),
            'test': self._generate_examples(path=path / 'train.txt'),
    }

मानक डेटासेट बिल्डरों के लिए, इसे क्लास विधियों _info और _split_generators ओवरराइट करने की आवश्यकता होती है। डेटासेट के आधार पर, आपको अपने डेटासेट के लिए विशिष्ट सुविधाओं और टैग की सूची को शामिल करने के लिए conll_dataset_builder_utils.py को भी अपडेट करने की आवश्यकता हो सकती है।

_generate_examples विधि को और अधिक ओवरराइटिंग की आवश्यकता नहीं होनी चाहिए, जब तक कि आपके डेटासेट को विशिष्ट कार्यान्वयन की आवश्यकता न हो।

उदाहरण

CoNLL-विशिष्ट डेटासेट बिल्डर का उपयोग करके कार्यान्वित डेटासेट के उदाहरण के रूप में conll2003 पर विचार करें।

सीएलआई

नया CoNLL-आधारित डेटासेट लिखने का सबसे आसान तरीका TFDS CLI का उपयोग करना है:

cd path/to/my/project/datasets/
tfds new my_dataset --format=conll   # Create `my_dataset/my_dataset.py` CoNLL-specific template files

कॉनएलएल-यू

प्रारूप

CoNLL-U एक लोकप्रिय प्रारूप है जिसका उपयोग एनोटेटेड टेक्स्ट डेटा को प्रस्तुत करने के लिए किया जाता है।

CoNLL-U कई विशेषताओं को जोड़कर CoNLL प्रारूप को बढ़ाता है, जैसे मल्टी-टोकन शब्दों के लिए समर्थन। CoNLL-U स्वरूपित डेटा में आमतौर पर प्रति पंक्ति भाषाई एनोटेशन के साथ एक टोकन होता है; एक ही पंक्ति में, एनोटेशन आमतौर पर एकल टैब वर्णों द्वारा अलग किए जाते हैं। खाली पंक्तियाँ वाक्य की सीमाओं को दर्शाती हैं।

आमतौर पर, प्रत्येक CoNLL-U एनोटेटेड शब्द पंक्ति में निम्नलिखित फ़ील्ड होते हैं, जैसा कि आधिकारिक दस्तावेज़ में बताया गया है:

  • आईडी: शब्द सूचकांक, प्रत्येक नए वाक्य के लिए 1 से शुरू होने वाला पूर्णांक; मल्टीवर्ड टोकन के लिए एक सीमा हो सकती है; खाली नोड्स के लिए दशमलव संख्या हो सकती है (दशमलव संख्या 1 से कम हो सकती है लेकिन 0 से अधिक होनी चाहिए)।
  • प्रपत्र: शब्द रूप या विराम चिह्न।
  • लेम्मा: लेम्मा या शब्द रूप का तना।
  • यूपीओएस: यूनिवर्सल पार्ट-ऑफ़-स्पीच टैग।
  • XPOS: भाषा-विशिष्ट भाग-ऑफ़-स्पीच टैग; यदि उपलब्ध न हो तो अंडरस्कोर करें।
  • विशेषताएँ: सार्वभौमिक सुविधा सूची से या परिभाषित भाषा-विशिष्ट विस्तार से रूपात्मक विशेषताओं की सूची; यदि उपलब्ध न हो तो अंडरस्कोर करें।
  • शीर्ष: वर्तमान शब्द का शीर्ष, जो या तो आईडी या शून्य (0) का मान है।
  • DEPREL: HEAD से सार्वभौमिक निर्भरता संबंध (रूट iff HEAD = 0) या एक परिभाषित भाषा-विशिष्ट उपप्रकार।
  • डीईपीएस: हेड-डिप्रेल जोड़ियों की सूची के रूप में उन्नत निर्भरता ग्राफ।
  • MISC: कोई अन्य एनोटेशन.

एक उदाहरण के रूप में आधिकारिक दस्तावेज से निम्नलिखित CoNLL-U एनोटेटेड वाक्य पर विचार करें:

1-2    vámonos   _
1      vamos     ir
2      nos       nosotros
3-4    al        _
3      a         a
4      el        el
5      mar       mar

ConllUDatasetBuilder

TFDS में एक नया CoNLL-U आधारित डेटासेट जोड़ने के लिए, आप अपने डेटासेट बिल्डर क्लास को tfds.dataset_builders.ConllUDatasetBuilder पर आधारित कर सकते हैं। इस बेस क्लास में CoNLL-U डेटासेट की विशिष्टताओं से निपटने के लिए सामान्य कोड शामिल है (कॉलम-आधारित प्रारूप पर पुनरावृत्ति, सुविधाओं और टैग की पूर्व-संकलित सूचियां, ...)।

tfds.dataset_builders.ConllUDatasetBuilder एक CoNLL-U विशिष्ट GeneratorBasedBuilder लागू करता है। CoNLL-U डेटासेट बिल्डर के न्यूनतम उदाहरण के रूप में निम्नलिखित वर्ग को देखें:

from tensorflow_datasets.core.dataset_builders.conll import conllu_dataset_builder_utils as conllu_lib
import tensorflow_datasets.public_api as tfds

class MyCoNNLUDataset(tfds.dataset_builders.ConllUDatasetBuilder):
  VERSION = tfds.core.Version('1.0.0')
  RELEASE_NOTES = {'1.0.0': 'Initial release.'}

  # conllu_lib contains a set of ready-to-use features.
  BUILDER_CONFIGS = [
      conllu_lib.get_universal_morphology_config(
          language='en',
          features=conllu_lib.UNIVERSAL_DEPENDENCIES_FEATURES,
      )
  ]

  def _info(self) -> tfds.core.DatasetInfo:
    return self.create_dataset_info(
        # ...
    )

  def _split_generators(self, dl_manager):
    path = dl_manager.download_and_extract('https://data-url')

    return {
        'train':
            self._generate_examples(
                path=path / 'train.txt',
                # If necessary, add optional custom processing (see conllu_lib
                # for examples).
                # process_example_fn=...,
            )
    }

मानक डेटासेट बिल्डरों के लिए, इसे क्लास विधियों _info और _split_generators ओवरराइट करने की आवश्यकता होती है। डेटासेट के आधार पर, आपको अपने डेटासेट के लिए विशिष्ट सुविधाओं और टैग की सूची को शामिल करने के लिए conllu_dataset_builder_utils.py को भी अपडेट करने की आवश्यकता हो सकती है।

_generate_examples विधि को और अधिक ओवरराइटिंग की आवश्यकता नहीं होनी चाहिए, जब तक कि आपके डेटासेट को विशिष्ट कार्यान्वयन की आवश्यकता न हो। ध्यान दें, यदि आपके डेटासेट को विशिष्ट प्रीप्रोसेसिंग की आवश्यकता है - उदाहरण के लिए यदि यह गैर-क्लासिक सार्वभौमिक निर्भरता सुविधाओं पर विचार करता है - तो आपको अपने generate_examples फ़ंक्शन की process_example_fn विशेषता को अपडेट करने की आवश्यकता हो सकती है (उदाहरण के रूप में xtreme_pos daset देखें)।

उदाहरण

उदाहरण के तौर पर निम्नलिखित डेटासेट पर विचार करें, जो CoNNL-U विशिष्ट डेटासेट बिल्डर का उपयोग करते हैं:

सीएलआई

नया CoNLL-U आधारित डेटासेट लिखने का सबसे आसान तरीका TFDS CLI का उपयोग करना है:

cd path/to/my/project/datasets/
tfds new my_dataset --format=conllu   # Create `my_dataset/my_dataset.py` CoNLL-U specific template files