يقوم مكون خط الأنابيب StatisticsGen TFX بإنشاء إحصائيات الميزات حول كل من بيانات التدريب والخدمة، والتي يمكن استخدامها بواسطة مكونات خط الأنابيب الأخرى. يستخدم موقع StatisticsGen Beam لتوسيع نطاق مجموعات البيانات الكبيرة.
- يستهلك: مجموعات البيانات التي تم إنشاؤها بواسطة مكون خط أنابيب exampleGen.
- الانبعاث: إحصائيات مجموعة البيانات.
التحقق من صحة بيانات StatisticsGen وTensorFlow
يستخدم موقع StatisticsGen على نطاق واسع تقنية TensorFlow Data Validation لإنشاء إحصائيات من مجموعة البيانات الخاصة بك.
باستخدام مكون StatsGen
عادةً ما يكون نشر مكون خط أنابيب StatisticsGen سهلاً للغاية ويتطلب القليل من التخصيص. يبدو الرمز النموذجي كما يلي:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
استخدام مكون StatsGen مع المخطط
بالنسبة للتشغيل الأول لخط الأنابيب، سيتم استخدام مخرجات StatisticsGen لاستنتاج المخطط. ومع ذلك، في عمليات التشغيل اللاحقة، قد يكون لديك مخطط منسق يدويًا يحتوي على معلومات إضافية حول مجموعة البيانات الخاصة بك. من خلال توفير هذا المخطط إلى StatisticsGen، يمكن لـ TFDV توفير إحصائيات أكثر فائدة استنادًا إلى الخصائص المعلنة لمجموعة البيانات الخاصة بك.
في هذا الإعداد، ستستدعي StatisticsGen بمخطط منسق تم استيراده بواسطة ImporterNode مثل هذا:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
إنشاء مخطط منسق
يعد Schema
في TFX مثالًا Schema
البيانات الوصفية TensorFlow. يمكن كتابة هذا بتنسيق نص من البداية. ومع ذلك، فمن الأسهل استخدام المخطط المستنتج الذي تنتجه SchemaGen
كنقطة بداية. بمجرد تنفيذ مكون SchemaGen
، سيتم وضع المخطط أسفل جذر خط الأنابيب في المسار التالي:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
حيث يمثل <artifact_id>
معرفًا فريدًا لهذا الإصدار من المخطط في MLMD. يمكن بعد ذلك تعديل نموذج المخطط هذا لتوصيل معلومات حول مجموعة البيانات التي لا يمكن استنتاجها بشكل موثوق، مما سيجعل مخرجات StatisticsGen
أكثر فائدة والتحقق من الصحة الذي يتم إجراؤه في مكون ExampleValidator
أكثر صرامة.
تتوفر المزيد من التفاصيل في مرجع StatisticsGen API .