مكون خط أنابيب SchemaGen TFX

تستخدم بعض مكونات TFX وصفًا لبيانات الإدخال الخاصة بك يسمى المخطط . المخطط هو مثيل schema.proto . يمكنه تحديد أنواع البيانات لقيم المعالم، وما إذا كان يجب أن تكون الميزة موجودة في جميع الأمثلة، ونطاقات القيمة المسموح بها، والخصائص الأخرى. سيقوم مكون خط أنابيب SchemaGen تلقائيًا بإنشاء مخطط عن طريق استنتاج الأنواع والفئات والنطاقات من بيانات التدريب.

  • يستهلك: إحصائيات من مكون StatisticsGen
  • تنبعث: نموذج مخطط البيانات

إليك مقتطف من النموذج الأولي للمخطط:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

تستخدم مكتبات TFX التالية المخطط:

  • التحقق من صحة بيانات TensorFlow
  • تحويل TensorFlow
  • تحليل نموذج TensorFlow

في خط أنابيب TFX النموذجي، يقوم SchemaGen بإنشاء مخطط، والذي يتم استهلاكه بواسطة مكونات خط الأنابيب الأخرى. ومع ذلك، فإن المخطط الذي تم إنشاؤه تلقائيًا هو أفضل جهد ويحاول فقط استنتاج الخصائص الأساسية للبيانات. ومن المتوقع أن يقوم المطورون بمراجعته وتعديله حسب الحاجة.

يمكن إعادة المخطط المعدل إلى المسار باستخدام مكون ImportSchemaGen. يمكن إزالة مكون SchemaGen الخاص بإنشاء المخطط الأولي ويمكن لجميع المكونات النهائية استخدام مخرجات ImportSchemaGen. يوصى أيضًا بإضافة exampleValidator باستخدام المخطط المستورد لفحص بيانات التدريب بشكل مستمر.

التحقق من صحة بيانات SchemaGen وTensorFlow

يستخدم SchemaGen على نطاق واسع التحقق من صحة بيانات TensorFlow لاستنتاج المخطط.

استخدام مكون SchemaGen

لإنشاء المخطط الأولي

عادةً ما يكون نشر مكون خط أنابيب SchemaGen سهلاً للغاية ويتطلب القليل من التخصيص. يبدو الرمز النموذجي كما يلي:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

تتوفر المزيد من التفاصيل في مرجع SchemaGen API .

لاستيراد المخطط الذي تمت مراجعته

أضف مكون ImportSchemaGen إلى المسار لإحضار تعريف المخطط الذي تمت مراجعته إلى المسار.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

يجب أن يكون schema_file مسارًا كاملاً لملف protobuf النصي.

تتوفر المزيد من التفاصيل في مرجع ImportSchemaGen API .