ส่วนประกอบไปป์ไลน์ StatisticsGen TFX จะสร้างสถิติฟีเจอร์สำหรับทั้งข้อมูลการฝึกและการให้บริการ ซึ่งคอมโพเนนต์ไปป์ไลน์อื่นๆ สามารถนำมาใช้ได้ StatisticsGen ใช้ Beam เพื่อปรับขนาดเป็นชุดข้อมูลขนาดใหญ่
- ใช้: ชุดข้อมูลที่สร้างโดยส่วนประกอบไปป์ไลน์ ExampleGen
- ปล่อย: สถิติชุดข้อมูล
การตรวจสอบข้อมูล StatisticsGen และ TensorFlow
StatisticsGen ใช้ การตรวจสอบข้อมูล TensorFlow อย่างครอบคลุมเพื่อสร้างสถิติจากชุดข้อมูลของคุณ
การใช้คอมโพเนนต์ StatsGen
โดยทั่วไปส่วนประกอบไปป์ไลน์ของ StatisticsGen จะปรับใช้ได้ง่ายมากและต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
การใช้องค์ประกอบ StatsGen ด้วย Schema
สำหรับการเรียกใช้ไปป์ไลน์ครั้งแรก เอาต์พุตของ StatisticsGen จะถูกนำมาใช้เพื่ออนุมานสคีมา อย่างไรก็ตาม ในการเรียกใช้ครั้งต่อๆ ไป คุณอาจมีสคีมาที่ได้รับการดูแลจัดการด้วยตนเองซึ่งมีข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณ ด้วยการมอบสคีมานี้ให้กับ StatisticsGen ทำให้ TFDV สามารถจัดเตรียมสถิติที่มีประโยชน์มากขึ้นโดยอิงตามคุณสมบัติที่ประกาศของชุดข้อมูลของคุณ
ในการตั้งค่านี้ คุณจะเรียกใช้ StatisticsGen ด้วยสคีมาที่ได้รับการดูแลจัดการซึ่งนำเข้าโดย ImporterNode ดังนี้:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
การสร้างสคีมาที่ได้รับการดูแลจัดการ
Schema
ใน TFX เป็นอินสแตนซ์ของ TensorFlow Metadata Schema
proto ซึ่งสามารถเขียนได้ใน รูปแบบข้อความ ตั้งแต่เริ่มต้น อย่างไรก็ตาม การใช้สคีมาที่อนุมานที่สร้างโดย SchemaGen
เป็นจุดเริ่มต้นง่ายกว่า เมื่อคอมโพเนนต์ SchemaGen
ดำเนินการแล้ว สคีมาจะอยู่ใต้รูทไปป์ไลน์ในพาธต่อไปนี้:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
โดยที่ <artifact_id>
แสดงถึงรหัสที่ไม่ซ้ำกันสำหรับสคีมาเวอร์ชันนี้ใน MLMD จากนั้นจะสามารถปรับเปลี่ยนสคีมาโปรโตนี้เพื่อสื่อสารข้อมูลเกี่ยวกับชุดข้อมูลที่ไม่สามารถอนุมานได้อย่างน่าเชื่อถือ ซึ่งจะทำให้เอาต์พุตของ StatisticsGen
มีประโยชน์มากขึ้น และการตรวจสอบที่ดำเนินการในส่วนประกอบ ExampleValidator
เข้มงวดมากขึ้น
มีรายละเอียดเพิ่มเติมใน ข้อมูลอ้างอิง StatisticsGen API