การแนะนำ
รันไทม์ TensorFlow มีส่วนประกอบที่เริ่มต้นอย่างเกียจคร้าน ซึ่งอาจทำให้เกิดเวลาแฝงสูงสำหรับคำขอแรกที่ส่งไปยังโมเดลหลังจากโหลดแล้ว เวลาแฝงนี้สามารถมีลำดับความสำคัญสูงกว่าคำขออนุมานเดียวได้หลายลำดับ
เพื่อลดผลกระทบของการเริ่มต้นแบบ Lazy ต่อเวลาแฝงของคำขอ คุณสามารถทริกเกอร์การเริ่มต้นระบบย่อยและส่วนประกอบในเวลาโหลดโมเดลได้ โดยจัดเตรียมชุดตัวอย่างของคำขอการอนุมานพร้อมกับ SavedModel กระบวนการนี้เรียกว่า "การอุ่นเครื่อง" โมเดล
การใช้งาน
SavedModel Warmup รองรับ Regress, Classify, MultiInference และ Predict หากต้องการทริกเกอร์การวอร์มอัพโมเดล ณ เวลาโหลด ให้แนบไฟล์ข้อมูลการวอร์มอัพใต้โฟลเดอร์ย่อย Assets.extra ของไดเร็กทอรี SavedModel
ข้อกำหนดสำหรับการวอร์มอัพโมเดลเพื่อให้ทำงานได้อย่างถูกต้อง:
- ชื่อไฟล์วอร์มอัพ: 'tf_serving_warmup_requests'
- ตำแหน่งไฟล์: Assets.extra/
- รูปแบบไฟล์: TFRecord โดยแต่ละบันทึกเป็น PredictionLog
- จำนวนบันทึกการอุ่นเครื่อง <= 1,000
- ข้อมูลการอุ่นเครื่องต้องเป็นตัวแทนของคำขออนุมานที่ใช้ในการให้บริการ
การสร้างข้อมูลอุ่นเครื่อง
สามารถเพิ่มข้อมูลการอุ่นเครื่องได้สองวิธี:
- โดยการเติมคำขอวอร์มอัพโดยตรงไปยังโมเดลที่บันทึกไว้ที่ส่งออกของคุณ ซึ่งสามารถทำได้โดยการสร้างสคริปต์อ่านรายการคำขออนุมานตัวอย่าง แปลงแต่ละคำขอเป็น PredictionLog (หากเดิมทีอยู่ในรูปแบบอื่น) และใช้ TFRecordWriter เพื่อเขียนรายการ PredictionLog ลงใน
YourSavedModel/assets.extra/tf_serving_warmup_requests
- โดยใช้ ตัวเลือก TFX Infra Validator เพื่อส่งออกโมเดลที่บันทึกไว้ด้วยการวอร์มอัพ ด้วยตัวเลือกนี้ TFX Infa Validator จะเติม
YourSavedModel/assets.extra/tf_serving_warmup_requests
ตามคำขอตรวจสอบความถูกต้องที่ให้ไว้ผ่าน RequestSpec