ভূমিকা
TensorFlow রানটাইমে এমন কিছু উপাদান রয়েছে যা অলসভাবে শুরু করা হয়, যা লোড হওয়ার পরে একটি মডেলে পাঠানো প্রথম অনুরোধ/গুলির জন্য উচ্চ বিলম্বিত হতে পারে। এই বিলম্বতা একটি একক অনুমান অনুরোধের চেয়ে অনেক বেশি মাত্রার অর্ডার হতে পারে।
অনুরোধের বিলম্বে অলস প্রারম্ভিকতার প্রভাব কমাতে, সংরক্ষিত মডেলের সাথে অনুমান অনুরোধের একটি নমুনা সেট প্রদান করে মডেল লোডের সময় সাব-সিস্টেম এবং উপাদানগুলির প্রারম্ভিকতা ট্রিগার করা সম্ভব। এই প্রক্রিয়াটি মডেলটিকে "ওয়ার্মিং আপ" হিসাবে পরিচিত।
ব্যবহার
SavedModel Warmup Regress, Classify, MultiInference এবং Predict-এর জন্য সমর্থিত। লোডের সময় মডেলের ওয়ার্মআপ ট্রিগার করতে, SavedModel ডিরেক্টরির assets.extra সাবফোল্ডারের অধীনে একটি ওয়ার্মআপ ডেটা ফাইল সংযুক্ত করুন।
সঠিকভাবে কাজ করার জন্য মডেল ওয়ার্মআপের প্রয়োজনীয়তা:
- ওয়ার্মআপ ফাইলের নাম: 'tf_serving_warmup_requests'
- ফাইলের অবস্থান: assets.extra/
- ফাইল ফরম্যাট: একটি PredictionLog হিসাবে প্রতিটি রেকর্ডের সাথে TFRrecord ।
- ওয়ার্মআপ রেকর্ডের সংখ্যা <= 1000।
- ওয়ার্মআপ ডেটা অবশ্যই পরিবেশন করার সময় ব্যবহৃত অনুমান অনুরোধের প্রতিনিধি হতে হবে।
ওয়ার্ম-আপ ডেটা জেনারেশন
ওয়ার্মআপ ডেটা দুটি উপায়ে যোগ করা যেতে পারে:
- আপনার রপ্তানি করা সংরক্ষিত মডেলে ওয়ার্মআপের অনুরোধগুলি সরাসরি পপুলেট করে৷ নমুনা অনুমান অনুরোধের একটি তালিকা পড়ার একটি স্ক্রিপ্ট তৈরি করে, প্রতিটি অনুরোধকে PredictionLog- এ রূপান্তর করে (যদি এটি মূলত একটি ভিন্ন ফর্ম্যাটে হয়) এবং TFRecordWriter ব্যবহার করে
YourSavedModel/assets.extra/tf_serving_warmup_requests
এ PredictionLog এন্ট্রি লেখার মাধ্যমে এটি করা যেতে পারে। - ওয়ার্মআপ সহ একটি সংরক্ষিত মডেল রপ্তানি করতে TFX ইনফ্রা ভ্যালিডেটর বিকল্প ব্যবহার করে৷ এই বিকল্পের মাধ্যমে TFX Infa যাচাইকারী
YourSavedModel/assets.extra/tf_serving_warmup_requests
পূরণ করবে RequestSpec এর মাধ্যমে প্রদত্ত বৈধতা অনুরোধের উপর ভিত্তি করে।