এই টিউটোরিয়ালটি আপনাকে দেখায় যে কীভাবে টেনসরফ্লো সার্ভিং উপাদানগুলিকে স্ট্যান্ডার্ড টেনসরফ্লো মডেল সার্ভার তৈরি করতে ব্যবহার করতে হয় যা গতিশীলভাবে একটি প্রশিক্ষিত টেনসরফ্লো মডেলের নতুন সংস্করণগুলি আবিষ্কার করে এবং পরিবেশন করে। আপনি যদি শুধুমাত্র আপনার মডেলগুলি পরিবেশন করার জন্য স্ট্যান্ডার্ড সার্ভার ব্যবহার করতে চান, TensorFlow Serving বেসিক টিউটোরিয়াল দেখুন।
এই টিউটোরিয়ালটি হস্তলিখিত চিত্র (MNIST ডেটা) শ্রেণীবিভাগের জন্য TensorFlow টিউটোরিয়ালে প্রবর্তিত সহজ Softmax রিগ্রেশন মডেল ব্যবহার করে। আপনি যদি টেনসরফ্লো বা এমএনআইএসটি কী তা না জানেন তবে এমএল বিগিনার্সের জন্য এমএনআইএসটি টিউটোরিয়ালটি দেখুন।
এই টিউটোরিয়ালের কোড দুটি অংশ নিয়ে গঠিত:
একটি পাইথন ফাইল mnist_saved_model.py যা মডেলের একাধিক সংস্করণকে প্রশিক্ষণ ও রপ্তানি করে।
একটি C++ ফাইল main.cc যা হল স্ট্যান্ডার্ড টেনসরফ্লো মডেল সার্ভার যা নতুন এক্সপোর্ট করা মডেল আবিষ্কার করে এবং সেগুলি পরিবেশনের জন্য একটি জিআরপিসি পরিষেবা চালায়।
এই টিউটোরিয়ালটি নিম্নলিখিত কাজের মাধ্যমে ধাপে ধাপে রয়েছে:
- একটি TensorFlow মডেল প্রশিক্ষণ এবং রপ্তানি করুন।
- টেনসরফ্লো সার্ভিং
ServerCore
সাথে মডেল সংস্করণ পরিচালনা করুন। -
SavedModelBundleSourceAdapterConfig
ব্যবহার করে ব্যাচিং কনফিগার করুন। - TensorFlow সার্ভিং
ServerCore
সাথে অনুরোধ পরিবেশন করুন। - চালান এবং পরিষেবা পরীক্ষা.
শুরু করার আগে, প্রথমে ডকার ইনস্টল করুন
ট্রেন এবং রপ্তানি টেনসরফ্লো মডেল
প্রথমত, আপনি যদি এখনও তা না করে থাকেন, তাহলে আপনার স্থানীয় মেশিনে এই সংগ্রহস্থলটি ক্লোন করুন:
git clone https://github.com/tensorflow/serving.git
cd serving
রপ্তানি ডিরেক্টরি সাফ করুন যদি এটি ইতিমধ্যে বিদ্যমান থাকে:
rm -rf /tmp/models
ট্রেন (100টি পুনরাবৃত্তি সহ) এবং মডেলের প্রথম সংস্করণ রপ্তানি করুন:
tools/run_in_docker.sh python tensorflow_serving/example/mnist_saved_model.py \
--training_iteration=100 --model_version=1 /tmp/mnist
ট্রেন (2000 পুনরাবৃত্তি সহ) এবং মডেলের দ্বিতীয় সংস্করণ রপ্তানি করুন:
tools/run_in_docker.sh python tensorflow_serving/example/mnist_saved_model.py \
--training_iteration=2000 --model_version=2 /tmp/mnist
আপনি mnist_saved_model.py
এ দেখতে পাচ্ছেন, টেনসরফ্লো সার্ভিং বেসিক টিউটোরিয়ালের মতোই প্রশিক্ষণ এবং রপ্তানি করা হয়। প্রদর্শনের উদ্দেশ্যে, আপনি ইচ্ছাকৃতভাবে প্রথম রানের জন্য প্রশিক্ষণের পুনরাবৃত্তিগুলি ডায়াল করছেন এবং এটিকে v1 হিসাবে রপ্তানি করছেন, যখন এটিকে সাধারণত দ্বিতীয় রানের জন্য প্রশিক্ষণ দিচ্ছেন এবং একই প্যারেন্ট ডিরেক্টরিতে v2 হিসাবে রপ্তানি করছেন -- যেমনটি আমরা আশা করি পরবর্তীটি অর্জন করবে আরও নিবিড় প্রশিক্ষণের কারণে শ্রেণীবিভাগের সঠিকতা। আপনার /tmp/mnist
ডিরেক্টরিতে চালানো প্রতিটি প্রশিক্ষণের জন্য প্রশিক্ষণের ডেটা দেখতে হবে:
$ ls /tmp/mnist
1 2
সার্ভারকোর
এখন কল্পনা করুন মডেলটির v1 এবং v2 রানটাইমে গতিশীলভাবে তৈরি হয়, যেহেতু নতুন অ্যালগরিদম নিয়ে পরীক্ষা করা হচ্ছে, বা মডেলটিকে একটি নতুন ডেটা সেটের সাথে প্রশিক্ষিত করা হচ্ছে। একটি উত্পাদন পরিবেশে, আপনি এমন একটি সার্ভার তৈরি করতে চাইতে পারেন যা ধীরে ধীরে রোলআউটকে সমর্থন করতে পারে, যেখানে v1 পরিবেশন করার সময় v2 আবিষ্কার, লোড, পরীক্ষা, নিরীক্ষণ বা প্রত্যাবর্তন করা যেতে পারে। বিকল্পভাবে, আপনি v2 আনার আগে v1 ছিঁড়ে ফেলতে চাইতে পারেন। TensorFlow সার্ভিং উভয় বিকল্পকে সমর্থন করে -- যখন একটি ট্রানজিশনের সময় প্রাপ্যতা বজায় রাখার জন্য ভাল, অন্যটি সম্পদের ব্যবহার কমানোর জন্য ভাল (যেমন RAM)।
TensorFlow সার্ভিং Manager
ঠিক তাই করে। এটি টেনসরফ্লো মডেলগুলির সম্পূর্ণ জীবনচক্র পরিচালনা করে যার মধ্যে লোড করা, পরিবেশন করা এবং সেগুলি আনলোড করার পাশাপাশি সংস্করণ পরিবর্তন করা। এই টিউটোরিয়ালে, আপনি একটি টেনসরফ্লো সার্ভিং ServerCore
উপরে আপনার সার্ভার তৈরি করবেন, যা অভ্যন্তরীণভাবে একটি AspiredVersionsManager
মোড়ানো হয়।
int main(int argc, char** argv) {
...
ServerCore::Options options;
options.model_server_config = model_server_config;
options.servable_state_monitor_creator = &CreateServableStateMonitor;
options.custom_model_config_loader = &LoadCustomModelConfig;
::google::protobuf::Any source_adapter_config;
SavedModelBundleSourceAdapterConfig
saved_model_bundle_source_adapter_config;
source_adapter_config.PackFrom(saved_model_bundle_source_adapter_config);
(*(*options.platform_config_map.mutable_platform_configs())
[kTensorFlowModelPlatform].mutable_source_adapter_config()) =
source_adapter_config;
std::unique_ptr<ServerCore> core;
TF_CHECK_OK(ServerCore::Create(options, &core));
RunServer(port, std::move(core));
return 0;
}
ServerCore::Create()
একটি ServerCore::Options প্যারামিটার নেয়। এখানে কয়েকটি সাধারণভাবে ব্যবহৃত বিকল্প রয়েছে:
-
ModelServerConfig
যা লোড করার জন্য মডেল নির্দিষ্ট করে। মডেলগুলি হয়model_config_list
এর মাধ্যমে ঘোষণা করা হয়, যা মডেলগুলির একটি স্ট্যাটিক তালিকা ঘোষণা করে, অথবাcustom_model_config
এর মাধ্যমে, যা রানটাইমে আপডেট হতে পারে এমন মডেলগুলির একটি তালিকা ঘোষণা করার একটি কাস্টম উপায় সংজ্ঞায়িত করে। -
PlatformConfigMap
যা প্ল্যাটফর্মের নাম (যেমনtensorflow
) থেকেPlatformConfig
এ ম্যাপ করে, যাSourceAdapter
তৈরি করতে ব্যবহৃত হয়।SourceAdapter
StoragePath
(যে পথটি একটি মডেল সংস্করণ আবিষ্কৃত হয়) মডেলLoader
(স্টোরেজ পাথ থেকে মডেল সংস্করণ লোড করে এবংManager
স্টেট ট্রানজিশন ইন্টারফেস প্রদান করে) অ্যাডাপ্ট করে। যদিPlatformConfig
SavedModelBundleSourceAdapterConfig
থাকে, তাহলে একটিSavedModelBundleSourceAdapter
তৈরি করা হবে, যা আমরা পরে ব্যাখ্যা করব।
SavedModelBundle
হল TensorFlow সার্ভিংয়ের একটি মূল উপাদান। এটি একটি প্রদত্ত পথ থেকে লোড করা একটি TensorFlow মডেল উপস্থাপন করে এবং অনুমান চালানোর জন্য TensorFlow হিসাবে একই Session::Run
ইন্টারফেস প্রদান করে। SavedModelBundleSourceAdapter
Loader<SavedModelBundle>
-এ স্টোরেজ পাথ অ্যাডাপ্ট করে যাতে Manager
দ্বারা মডেলের জীবনকাল পরিচালনা করা যায়। অনুগ্রহ করে মনে রাখবেন SavedModelBundle
হল অবনমিত SessionBundle
এর উত্তরসূরী। ব্যবহারকারীদের SavedModelBundle
ব্যবহার করতে উৎসাহিত করা হচ্ছে কারণ SessionBundle
জন্য সমর্থন শীঘ্রই সরিয়ে দেওয়া হবে।
এই সবের সাথে, ServerCore
অভ্যন্তরীণভাবে নিম্নলিখিতগুলি করে:
- একটি
FileSystemStoragePathSource
ইনস্ট্যান্টিয়েট করে যাmodel_config_list
এ ঘোষিত মডেল এক্সপোর্ট পাথ নিরীক্ষণ করে। -
model_config_list
এ ঘোষিত মডেল প্ল্যাটফর্মের সাথেPlatformConfigMap
ব্যবহার করে একটিSourceAdapter
ইনস্ট্যান্ট করে এবংFileSystemStoragePathSource
এর সাথে সংযোগ করে। এইভাবে, যখনই রপ্তানি পথের অধীনে একটি নতুন মডেল সংস্করণ আবিষ্কৃত হয়,SavedModelBundleSourceAdapter
এটিকে একটিLoader<SavedModelBundle>
-এ মানিয়ে নেয়। -
AspiredVersionsManager
নামকManager
একটি সুনির্দিষ্ট বাস্তবায়ন ইনস্ট্যান্টিয়েট করে যাSavedModelBundleSourceAdapter
দ্বারা তৈরি এই ধরনের সমস্তLoader
দৃষ্টান্ত পরিচালনা করে।AspiredVersionsManager
কে কলগুলি অর্পণ করেServerCore
Manager
ইন্টারফেস রপ্তানি করে।
যখনই একটি নতুন সংস্করণ উপলব্ধ হয়, এই AspiredVersionsManager
নতুন সংস্করণ লোড করে এবং এর ডিফল্ট আচরণের অধীনে পুরানোটিকে আনলোড করে। আপনি যদি কাস্টমাইজ করা শুরু করতে চান, তাহলে এটি অভ্যন্তরীণভাবে যে উপাদানগুলি তৈরি করে এবং কীভাবে সেগুলি কনফিগার করতে হয় তা বুঝতে আপনাকে উত্সাহিত করা হয়।
এটি উল্লেখ করার মতো যে টেনসরফ্লো সার্ভিং স্ক্র্যাচ থেকে ডিজাইন করা হয়েছে খুব নমনীয় এবং এক্সটেনসিবল। ServerCore
এবং AspiredVersionsManager
এর মতো জেনেরিক মূল উপাদানগুলির সুবিধা নেওয়ার সময় আপনি সিস্টেমের আচরণ কাস্টমাইজ করতে বিভিন্ন প্লাগইন তৈরি করতে পারেন। উদাহরণস্বরূপ, আপনি একটি ডেটা সোর্স প্লাগইন তৈরি করতে পারেন যা স্থানীয় স্টোরেজের পরিবর্তে ক্লাউড স্টোরেজ নিরীক্ষণ করে, অথবা আপনি একটি সংস্করণ নীতি প্লাগইন তৈরি করতে পারেন যা ভিন্ন উপায়ে সংস্করণ পরিবর্তন করে -- আসলে, আপনি এমন একটি কাস্টম মডেল প্লাগইন তৈরি করতে পারেন যা পরিবেশন করে নন-টেনসরফ্লো মডেল। এই বিষয়গুলি এই টিউটোরিয়ালের সুযোগের বাইরে। যাইহোক, আপনি আরও তথ্যের জন্য কাস্টম উত্স এবং কাস্টম পরিবেশনযোগ্য টিউটোরিয়ালগুলি উল্লেখ করতে পারেন।
ব্যাচিং
আরেকটি সাধারণ সার্ভার বৈশিষ্ট্য যা আমরা উৎপাদন পরিবেশে চাই তা হল ব্যাচিং। মেশিন লার্নিং ইনফারেন্স করতে ব্যবহৃত আধুনিক হার্ডওয়্যার এক্সিলারেটর (জিপিইউ, ইত্যাদি) সাধারণত যখন অনুমান অনুরোধগুলি বড় ব্যাচে চালানো হয় তখন সর্বোত্তম গণনা দক্ষতা অর্জন করে।
SavedModelBundleSourceAdapter
তৈরি করার সময় সঠিক SessionBundleConfig
প্রদান করে ব্যাচিং চালু করা যেতে পারে। এই ক্ষেত্রে আমরা BatchingParameters
বেশ ডিফল্ট মান সহ সেট করি। কাস্টম টাইমআউট, ব্যাচ_সাইজ, ইত্যাদি মান সেট করে ব্যাচিং সূক্ষ্ম-টিউন করা যেতে পারে। বিস্তারিত জানার জন্য, অনুগ্রহ করে BatchingParameters
দেখুন।
SessionBundleConfig session_bundle_config;
// Batching config
if (enable_batching) {
BatchingParameters* batching_parameters =
session_bundle_config.mutable_batching_parameters();
batching_parameters->mutable_thread_pool_name()->set_value(
"model_server_batch_threads");
}
*saved_model_bundle_source_adapter_config.mutable_legacy_config() =
session_bundle_config;
সম্পূর্ণ ব্যাচে পৌঁছানোর পরে, অনুমান অনুরোধগুলি অভ্যন্তরীণভাবে একটি একক বড় অনুরোধে (টেনসর) একত্রিত করা হয় এবং tensorflow::Session::Run()
চালু করা হয় (যেখান থেকে GPU-তে প্রকৃত দক্ষতা লাভ হয়)।
ম্যানেজারের সাথে পরিবেশন করুন
উপরে উল্লিখিত হিসাবে, টেনসরফ্লো সার্ভিং Manager
একটি সাধারণ উপাদান হিসাবে ডিজাইন করা হয়েছে যা অবাধ মেশিন লার্নিং সিস্টেম দ্বারা তৈরি মডেলগুলির লোডিং, পরিবেশন, আনলোডিং এবং সংস্করণ পরিবর্তন পরিচালনা করতে পারে। এর APIগুলি নিম্নলিখিত মূল ধারণাগুলিকে ঘিরে তৈরি করা হয়েছে:
পরিবেশনযোগ্য : পরিবেশনযোগ্য যে কোনও অস্বচ্ছ বস্তু যা ক্লায়েন্টের অনুরোধগুলি পরিবেশন করতে ব্যবহার করা যেতে পারে। একটি সার্ভেবলের আকার এবং গ্রানুলারিটি নমনীয়, যেমন একটি একক পরিবেশনযোগ্য একটি লুকআপ টেবিলের একক শার্ড থেকে একটি একক মেশিন-শিক্ষিত মডেল থেকে একাধিক মডেল পর্যন্ত কিছু অন্তর্ভুক্ত করতে পারে। একটি servable যে কোনো ধরনের এবং ইন্টারফেস হতে পারে.
পরিবেশনযোগ্য সংস্করণ : পরিবেশনযোগ্যগুলি সংস্করণযুক্ত এবং টেনসরফ্লো সার্ভিং
Manager
একটি পরিবেশনের এক বা একাধিক সংস্করণ পরিচালনা করতে পারে। সংস্করণকরণ একটি পরিবেশনযোগ্য সংস্করণের একাধিক সংস্করণকে একযোগে লোড করার অনুমতি দেয়, ধীরে ধীরে রোলআউট এবং পরীক্ষা-নিরীক্ষা সমর্থন করে।পরিবেশনযোগ্য স্ট্রীম : একটি পরিবেশনযোগ্য স্ট্রিম হল একটি পরিবেশনযোগ্য সংস্করণের ক্রম, যার সংখ্যা বৃদ্ধি পাচ্ছে।
মডেল : একটি মেশিন-শিক্ষিত মডেল এক বা একাধিক পরিবেশনযোগ্য দ্বারা প্রতিনিধিত্ব করা হয়। servables উদাহরণ হল:
- TensorFlow সেশন বা তাদের চারপাশে মোড়ানো, যেমন
SavedModelBundle
। - অন্যান্য ধরণের মেশিন-লার্নড মডেল।
- শব্দভান্ডার সন্ধান টেবিল।
- এম্বেডিং লুকআপ টেবিল।
একটি যৌগিক মডেলকে একাধিক স্বাধীন পরিবেশনযোগ্য হিসাবে বা একক যৌগিক পরিবেশনযোগ্য হিসাবে উপস্থাপন করা যেতে পারে। একটি পরিবেশনযোগ্য একটি মডেলের একটি ভগ্নাংশের সাথেও মিলিত হতে পারে, উদাহরণস্বরূপ অনেকগুলি
Manager
দৃষ্টান্ত জুড়ে একটি বড় লুকআপ টেবিলের সাথে।- TensorFlow সেশন বা তাদের চারপাশে মোড়ানো, যেমন
এই টিউটোরিয়ালের প্রেক্ষাপটে এগুলি রাখতে:
TensorFlow মডেলগুলিকে এক ধরনের পরিবেশনযোগ্য -
SavedModelBundle
দ্বারা উপস্থাপন করা হয়।SavedModelBundle
অভ্যন্তরীণভাবে একটিtensorflow:Session
কোন গ্রাফটি লোড করা হয় এবং কীভাবে অনুমানের জন্য এটি চালাতে হয় সে সম্পর্কে কিছু মেটাডেটা যুক্ত করা হয়।একটি ফাইল-সিস্টেম ডিরেক্টরি রয়েছে যেখানে টেনসরফ্লো এক্সপোর্টের একটি স্ট্রীম রয়েছে, প্রতিটির নিজস্ব সাবডিরেক্টরিতে রয়েছে যার নাম একটি সংস্করণ নম্বর। বাইরের ডিরেক্টরিটিকে টেনসরফ্লো মডেলের জন্য পরিবেশনযোগ্য স্ট্রিমের ক্রমিক উপস্থাপনা হিসাবে বিবেচনা করা যেতে পারে। প্রতিটি রপ্তানি লোড করা যেতে পারে এমন একটি servables এর সাথে মিলে যায়।
AspiredVersionsManager
রপ্তানি স্ট্রীম নিরীক্ষণ করে, এবং সমস্তSavedModelBundle
servables এর জীবনচক্র গতিশীলভাবে পরিচালনা করে।
TensorflowPredictImpl::Predict
তারপর শুধু:
- ম্যানেজারের কাছ থেকে
SavedModelBundle
অনুরোধ (সার্ভারকোরের মাধ্যমে)। -
PredictRequest
এ যৌক্তিক টেনসরের নামগুলিকে বাস্তব টেনসরের নামের সাথে মানচিত্র করতে এবং টেনসরের সাথে মানগুলি আবদ্ধ করতেgeneric signatures
ব্যবহার করে। - অনুমান চালায়।
পরীক্ষা করুন এবং সার্ভার চালান
নিরীক্ষণ করা ফোল্ডারে এক্সপোর্টের প্রথম সংস্করণটি অনুলিপি করুন:
mkdir /tmp/monitored
cp -r /tmp/mnist/1 /tmp/monitored
তারপর সার্ভার শুরু করুন:
docker run -p 8500:8500 \
--mount type=bind,source=/tmp/monitored,target=/models/mnist \
-t --entrypoint=tensorflow_model_server tensorflow/serving --enable_batching \
--port=8500 --model_name=mnist --model_base_path=/models/mnist &
সার্ভারটি প্রতি এক সেকেন্ডে লগ বার্তা নির্গত করবে যা বলে "সার্ভারযোগ্যের জন্য উচ্চাকাঙ্ক্ষী সংস্করণ ...", যার অর্থ এটি রপ্তানি খুঁজে পেয়েছে এবং এর অব্যাহত অস্তিত্ব ট্র্যাক করছে৷
--concurrency=10
দিয়ে ক্লায়েন্ট চালাই। এটি সার্ভারে একযোগে অনুরোধ পাঠাবে এবং এইভাবে আপনার ব্যাচিং লজিককে ট্রিগার করবে।
tools/run_in_docker.sh python tensorflow_serving/example/mnist_client.py \
--num_tests=1000 --server=127.0.0.1:8500 --concurrency=10
যার ফলে আউটপুট দেখায়:
...
Inference error rate: 13.1%
তারপরে আমরা রপ্তানির দ্বিতীয় সংস্করণটি পর্যবেক্ষণ করা ফোল্ডারে অনুলিপি করি এবং পরীক্ষাটি পুনরায় চালাই:
cp -r /tmp/mnist/2 /tmp/monitored
tools/run_in_docker.sh python tensorflow_serving/example/mnist_client.py \
--num_tests=1000 --server=127.0.0.1:8500 --concurrency=10
যার ফলে আউটপুট দেখায়:
...
Inference error rate: 9.5%
এটি নিশ্চিত করে যে আপনার সার্ভার স্বয়ংক্রিয়ভাবে নতুন সংস্করণ আবিষ্কার করে এবং পরিবেশনের জন্য এটি ব্যবহার করে!