स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक

स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक प्रशिक्षण और सेवा डेटा दोनों पर फीचर आँकड़े उत्पन्न करता है, जिसका उपयोग अन्य पाइपलाइन घटकों द्वारा किया जा सकता है। स्टैटिस्टिक्सजेन बड़े डेटासेट को स्केल करने के लिए बीम का उपयोग करता है।

  • उपभोग: एक उदाहरणजेन पाइपलाइन घटक द्वारा बनाए गए डेटासेट।
  • उत्सर्जन: डेटासेट आँकड़े।

स्टैटिस्टिक्सजेन और टेन्सरफ्लो डेटा सत्यापन

स्टैटिस्टिक्सजेन आपके डेटासेट से आंकड़े तैयार करने के लिए टेन्सरफ्लो डेटा वैलिडेशन का व्यापक उपयोग करता है।

StatsGen घटक का उपयोग करना

स्टैटिस्टिक्सजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान है और इसके लिए कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

स्कीमा के साथ स्टैट्सजेन घटक का उपयोग करना

पाइपलाइन के पहले रन के लिए, स्कीमा का अनुमान लगाने के लिए स्टैटिस्टिक्सजेन के आउटपुट का उपयोग किया जाएगा। हालाँकि, बाद के रन पर आपके पास मैन्युअल रूप से क्यूरेटेड स्कीमा हो सकती है जिसमें आपके डेटा सेट के बारे में अतिरिक्त जानकारी होती है। इस स्कीमा को स्टैटिस्टिक्सजेन को प्रदान करके, टीएफडीवी आपके डेटा सेट के घोषित गुणों के आधार पर अधिक उपयोगी आंकड़े प्रदान कर सकता है।

इस सेटिंग में, आप एक क्यूरेटेड स्कीमा के साथ स्टैटिस्टिक्सजेन को आमंत्रित करेंगे जिसे एक आयातक नोड द्वारा इस तरह आयात किया गया है:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

एक क्यूरेटेड स्कीमा बनाना

TFX में Schema TensorFlow मेटाडेटा Schema प्रोटो का एक उदाहरण है। इसे शुरू से ही टेक्स्ट फॉर्मेट में बनाया जा सकता है। हालाँकि, SchemaGen द्वारा निर्मित अनुमानित स्कीमा को शुरुआती बिंदु के रूप में उपयोग करना आसान है। एक बार SchemaGen घटक निष्पादित हो जाने के बाद, स्कीमा निम्नलिखित पथ में पाइपलाइन रूट के नीचे स्थित होगी:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

जहां <artifact_id> MLMD में स्कीमा के इस संस्करण के लिए एक अद्वितीय आईडी का प्रतिनिधित्व करता है। इस स्कीमा प्रोटो को उस डेटासेट के बारे में जानकारी संप्रेषित करने के लिए संशोधित किया जा सकता है जिसका विश्वसनीय रूप से अनुमान नहीं लगाया जा सकता है, जो StatisticsGen के आउटपुट को अधिक उपयोगी बना देगा और ExampleValidator घटक में किए गए सत्यापन को और अधिक कठोर बना देगा।

अधिक विवरण स्टैटिस्टिक्सजेन एपीआई संदर्भ में उपलब्ध हैं।