स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक प्रशिक्षण और सेवा डेटा दोनों पर फीचर आँकड़े उत्पन्न करता है, जिसका उपयोग अन्य पाइपलाइन घटकों द्वारा किया जा सकता है। स्टैटिस्टिक्सजेन बड़े डेटासेट को स्केल करने के लिए बीम का उपयोग करता है।
- उपभोग: एक उदाहरणजेन पाइपलाइन घटक द्वारा बनाए गए डेटासेट।
- उत्सर्जन: डेटासेट आँकड़े।
स्टैटिस्टिक्सजेन और टेन्सरफ्लो डेटा सत्यापन
स्टैटिस्टिक्सजेन आपके डेटासेट से आंकड़े तैयार करने के लिए टेन्सरफ्लो डेटा वैलिडेशन का व्यापक उपयोग करता है।
StatsGen घटक का उपयोग करना
स्टैटिस्टिक्सजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान है और इसके लिए कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
स्कीमा के साथ स्टैट्सजेन घटक का उपयोग करना
पाइपलाइन के पहले रन के लिए, स्कीमा का अनुमान लगाने के लिए स्टैटिस्टिक्सजेन के आउटपुट का उपयोग किया जाएगा। हालाँकि, बाद के रन पर आपके पास मैन्युअल रूप से क्यूरेटेड स्कीमा हो सकती है जिसमें आपके डेटा सेट के बारे में अतिरिक्त जानकारी होती है। इस स्कीमा को स्टैटिस्टिक्सजेन को प्रदान करके, टीएफडीवी आपके डेटा सेट के घोषित गुणों के आधार पर अधिक उपयोगी आंकड़े प्रदान कर सकता है।
इस सेटिंग में, आप एक क्यूरेटेड स्कीमा के साथ स्टैटिस्टिक्सजेन को आमंत्रित करेंगे जिसे एक आयातक नोड द्वारा इस तरह आयात किया गया है:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
एक क्यूरेटेड स्कीमा बनाना
TFX में Schema
TensorFlow मेटाडेटा Schema
प्रोटो का एक उदाहरण है। इसे शुरू से ही टेक्स्ट फॉर्मेट में बनाया जा सकता है। हालाँकि, SchemaGen
द्वारा निर्मित अनुमानित स्कीमा को शुरुआती बिंदु के रूप में उपयोग करना आसान है। एक बार SchemaGen
घटक निष्पादित हो जाने के बाद, स्कीमा निम्नलिखित पथ में पाइपलाइन रूट के नीचे स्थित होगी:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
जहां <artifact_id>
MLMD में स्कीमा के इस संस्करण के लिए एक अद्वितीय आईडी का प्रतिनिधित्व करता है। इस स्कीमा प्रोटो को उस डेटासेट के बारे में जानकारी संप्रेषित करने के लिए संशोधित किया जा सकता है जिसका विश्वसनीय रूप से अनुमान नहीं लगाया जा सकता है, जो StatisticsGen
के आउटपुट को अधिक उपयोगी बना देगा और ExampleValidator
घटक में किए गए सत्यापन को और अधिक कठोर बना देगा।
अधिक विवरण स्टैटिस्टिक्सजेन एपीआई संदर्भ में उपलब्ध हैं।