مقدمة
يحتوي وقت تشغيل TensorFlow على مكونات تتم تهيئتها بتكاسل، مما قد يتسبب في زمن استجابة مرتفع للطلب/الطلبات الأولى التي يتم إرسالها إلى النموذج بعد تحميله. يمكن أن يكون زمن الوصول هذا أعلى بعدة مراتب من زمن الوصول لطلب استدلال واحد.
لتقليل تأثير التهيئة البطيئة على زمن استجابة الطلب، من الممكن تشغيل تهيئة الأنظمة الفرعية والمكونات في وقت تحميل النموذج من خلال توفير مجموعة عينات من طلبات الاستدلال جنبًا إلى جنب مع SavedModel. تُعرف هذه العملية باسم "إحماء" النموذج.
الاستخدام
يتم دعم SavedModel Warmup للتراجع والتصنيف والاستدلال المتعدد والتنبؤ. لبدء عملية إحماء النموذج في وقت التحميل، قم بإرفاق ملف بيانات إحماء ضمن المجلد الفرعيAssets.extra لدليل SavedModel.
متطلبات إحماء النموذج للعمل بشكل صحيح:
- اسم ملف الاحماء: 'tf_serving_warmup_requests'
- موقع الملف: الأصول.extra/
- تنسيق الملف: TFRecord مع كل سجل باعتباره PredictionLog .
- عدد سجلات الاحماء <= 1000.
- يجب أن تكون بيانات الإحماء ممثلة لطلبات الاستدلال المستخدمة في التقديم.
الاحماء توليد البيانات
يمكن إضافة بيانات الإحماء بطريقتين:
- من خلال تعبئة طلبات الإعداد مباشرة في النموذج المحفوظ الذي تم تصديره. يمكن القيام بذلك عن طريق إنشاء برنامج نصي يقرأ قائمة من نماذج طلبات الاستدلال، وتحويل كل طلب إلى PredictionLog (إذا كان في الأصل بتنسيق مختلف) واستخدام TFRecordWriter لكتابة إدخالات PredictionLog في
YourSavedModel/assets.extra/tf_serving_warmup_requests
. - باستخدام خيار TFX Infra Validator لتصدير نموذج محفوظ مع عملية الإحماء . باستخدام هذا الخيار، سيقوم TFX Infa Validator بملء
YourSavedModel/assets.extra/tf_serving_warmup_requests
بناءً على طلبات التحقق المقدمة عبر RequestSpec .