การอุ่นเครื่องโมเดลที่บันทึกไว้

การแนะนำ

รันไทม์ TensorFlow มีส่วนประกอบที่เริ่มต้นอย่างเกียจคร้าน ซึ่งอาจทำให้เกิดเวลาแฝงสูงสำหรับคำขอแรกที่ส่งไปยังโมเดลหลังจากโหลดแล้ว เวลาแฝงนี้สามารถมีลำดับความสำคัญสูงกว่าคำขออนุมานเดียวได้หลายลำดับ

เพื่อลดผลกระทบของการเริ่มต้นแบบ Lazy ต่อเวลาแฝงของคำขอ คุณสามารถทริกเกอร์การเริ่มต้นระบบย่อยและส่วนประกอบในเวลาโหลดโมเดลได้ โดยจัดเตรียมชุดตัวอย่างของคำขอการอนุมานพร้อมกับ SavedModel กระบวนการนี้เรียกว่า "การอุ่นเครื่อง" โมเดล

การใช้งาน

SavedModel Warmup รองรับ Regress, Classify, MultiInference และ Predict หากต้องการทริกเกอร์การวอร์มอัพโมเดล ณ เวลาโหลด ให้แนบไฟล์ข้อมูลการวอร์มอัพใต้โฟลเดอร์ย่อย Assets.extra ของไดเร็กทอรี SavedModel

ข้อกำหนดสำหรับการวอร์มอัพโมเดลเพื่อให้ทำงานได้อย่างถูกต้อง:

  • ชื่อไฟล์วอร์มอัพ: 'tf_serving_warmup_requests'
  • ตำแหน่งไฟล์: Assets.extra/
  • รูปแบบไฟล์: TFRecord โดยแต่ละบันทึกเป็น PredictionLog
  • จำนวนบันทึกการอุ่นเครื่อง <= 1,000
  • ข้อมูลการอุ่นเครื่องต้องเป็นตัวแทนของคำขออนุมานที่ใช้ในการให้บริการ

การสร้างข้อมูลอุ่นเครื่อง

สามารถเพิ่มข้อมูลการอุ่นเครื่องได้สองวิธี:

  • โดยการเติมคำขอวอร์มอัพโดยตรงไปยังโมเดลที่บันทึกไว้ที่ส่งออกของคุณ ซึ่งสามารถทำได้โดยการสร้างสคริปต์อ่านรายการคำขออนุมานตัวอย่าง แปลงแต่ละคำขอเป็น PredictionLog (หากเดิมทีอยู่ในรูปแบบอื่น) และใช้ TFRecordWriter เพื่อเขียนรายการ PredictionLog ลงใน YourSavedModel/assets.extra/tf_serving_warmup_requests
  • โดยใช้ ตัวเลือก TFX Infra Validator เพื่อส่งออกโมเดลที่บันทึกไว้ด้วยการวอร์มอัพ ด้วยตัวเลือกนี้ TFX Infa Validator จะเติม YourSavedModel/assets.extra/tf_serving_warmup_requests ตามคำขอตรวจสอบความถูกต้องที่ให้ไว้ผ่าน RequestSpec