רכיב הצינור של StatisticsGen TFX מייצר נתונים סטטיסטיים של תכונות הן על נתוני ההדרכה והן על נתוני ההגשה, אשר יכולים לשמש רכיבי צינור אחרים. StatisticsGen משתמש ב-Beam כדי לשנות את קנה המידה למערכי נתונים גדולים.
- צורכת: מערכי נתונים שנוצרו על ידי רכיב צינור של ExampleGen.
- פולטות: סטטיסטיקות מערך נתונים.
אימות נתונים של StatisticsGen ו- TensorFlow
StatisticsGen עושה שימוש נרחב באימות נתונים של TensorFlow ליצירת נתונים סטטיסטיים ממערך הנתונים שלך.
שימוש ברכיב StatsGen
רכיב צינור של StatisticsGen הוא בדרך כלל קל מאוד לפריסה ודורש מעט התאמה אישית. קוד טיפוסי נראה כך:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
שימוש ברכיב StatsGen עם סכימה
עבור ההרצה הראשונה של צינור, הפלט של StatisticsGen ישמש כדי להסיק סכימה. עם זאת, בריצות עוקבות ייתכן שתהיה לך סכימה שנקבעה באופן ידני המכילה מידע נוסף על מערך הנתונים שלך. על ידי מתן סכימה זו ל-StatisticsGen, TFDV יכול לספק נתונים סטטיסטיים שימושיים יותר בהתבסס על מאפיינים מוצהרים של מערך הנתונים שלך.
בהגדרה זו, תפעיל את StatisticsGen עם סכימה אוצרת שיובאה על ידי ImporterNode בצורה הבאה:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
יצירת סכימה אוצרת
Schema
ב-TFX היא מופע של פרוטו TensorFlow Metadata Schema
. זה יכול להיות מורכב בפורמט טקסט מאפס. עם זאת, קל יותר להשתמש בסכימה המשוערת שהופקה על ידי SchemaGen
כנקודת התחלה. לאחר ביצוע רכיב SchemaGen
, הסכימה תמוקם מתחת לשורש הצינור בנתיב הבא:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
כאשר <artifact_id>
מייצג מזהה ייחודי עבור גרסה זו של הסכימה ב-MLMD. לאחר מכן ניתן לשנות את פרוטו הסכימה הזה כדי להעביר מידע על מערך הנתונים שלא ניתן להסיק באופן מהימן, מה שיהפוך את הפלט של StatisticsGen
לשימושי יותר ואת האימות המבוצע ברכיב ה- ExampleValidator
למחמיר יותר.
פרטים נוספים זמינים בהפניה ל-StatisticsGen API .