ส่วนประกอบ TFX บางอย่างใช้คำอธิบายข้อมูลอินพุตของคุณที่เรียกว่า สคีมา สคีมาเป็นตัวอย่างของ schema.proto สามารถระบุประเภทข้อมูลสำหรับค่าคุณลักษณะ ไม่ว่าคุณลักษณะจะต้องมีอยู่ในตัวอย่างทั้งหมด ช่วงค่าที่อนุญาต และคุณสมบัติอื่นๆ หรือไม่ ส่วนประกอบไปป์ไลน์ SchemaGen จะสร้างสคีมาโดยอัตโนมัติโดยการอนุมานประเภท หมวดหมู่ และช่วงจากข้อมูลการฝึก
- ใช้: สถิติจากคอมโพเนนต์ StatisticsGen
- ปล่อย: ต้นแบบสคีมาข้อมูล
นี่เป็นข้อความที่ตัดตอนมาจากโปรโตสคีมา:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
ไลบรารี TFX ต่อไปนี้ใช้สคีมา:
- การตรวจสอบข้อมูล TensorFlow
- การแปลงเทนเซอร์โฟลว์
- การวิเคราะห์แบบจำลอง TensorFlow
ในไปป์ไลน์ TFX ทั่วไป SchemaGen จะสร้างสคีมา ซึ่งคอมโพเนนต์ไปป์ไลน์อื่นๆ ใช้ไปป์ไลน์ อย่างไรก็ตาม สคีมาที่สร้างขึ้นอัตโนมัติจะใช้ความพยายามอย่างเต็มที่และพยายามอนุมานคุณสมบัติพื้นฐานของข้อมูลเท่านั้น คาดว่านักพัฒนาจะตรวจสอบและแก้ไขตามความจำเป็น
สคีมาที่แก้ไขสามารถนำกลับเข้าสู่ไปป์ไลน์ได้โดยใช้คอมโพเนนต์ ImportSchemaGen ส่วนประกอบ SchemaGen สำหรับการสร้างสคีมาเริ่มต้นสามารถลบออกได้ และส่วนประกอบดาวน์สตรีมทั้งหมดสามารถใช้เอาต์พุตของ ImportSchemaGen ได้ ขอแนะนำให้เพิ่ม ExampleValidator โดยใช้สคีมาที่นำเข้าเพื่อตรวจสอบข้อมูลการฝึกอย่างต่อเนื่อง
การตรวจสอบข้อมูล SchemaGen และ TensorFlow
SchemaGen ใช้ การตรวจสอบความถูกต้องของข้อมูล TensorFlow อย่างกว้างขวางเพื่ออนุมานสคีมา
การใช้ส่วนประกอบ SchemaGen
สำหรับการสร้างสคีมาเบื้องต้น
โดยทั่วไปส่วนประกอบไปป์ไลน์ SchemaGen นั้นง่ายต่อการปรับใช้และต้องการการปรับแต่งเพียงเล็กน้อย รหัสทั่วไปมีลักษณะดังนี้:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
รายละเอียดเพิ่มเติมมีอยู่ใน ข้อมูลอ้างอิง SchemaGen API
สำหรับการนำเข้าสคีมาที่ได้รับการตรวจสอบแล้ว
เพิ่มส่วนประกอบ ImportSchemaGen ไปยังไปป์ไลน์เพื่อนำข้อกำหนดของสคีมาที่ตรวจสอบแล้วลงในไปป์ไลน์
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
ควรเป็นเส้นทางแบบเต็มไปยังไฟล์ข้อความ protobuf
รายละเอียดเพิ่มเติมมีอยู่ใน ข้อมูลอ้างอิง ImportSchemaGen API