آموزش توزیع شده نوعی آموزش مدل است که در آن منابع محاسباتی مورد نیاز (مانند CPU، RAM) بین چندین کامپیوتر توزیع می شود. آموزش توزیع شده امکان آموزش سریعتر و بر روی مجموعه داده های بزرگتر را فراهم می کند (تا چند میلیارد نمونه).
آموزش توزیع شده همچنین برای بهینه سازی هایپرپارامتر خودکار که در آن چندین مدل به صورت موازی آموزش داده می شوند مفید است.
در این سند شما یاد خواهید گرفت که چگونه:
- یک مدل TF-DF را با استفاده از آموزش توزیع شده آموزش دهید.
- با استفاده از آموزش توزیع شده، فراپارامترهای یک مدل TF-DF را تنظیم کنید.
محدودیت ها
در حال حاضر، آموزش توزیع شده برای موارد زیر پشتیبانی می شود:
- آموزش مدل های Gradient Boosted Trees با
tfdf.keras.DistributedGradientBoostedTreesModel
. مدلهای درختان تقویتشده با گرادیان توزیع شده معادل نمونههای توزیع نشده خود هستند. - جستجوی فراپارامتر برای هر نوع مدل TF-DF.
نحوه فعال کردن آموزش توزیع شده
این بخش مراحل فعال کردن آموزش توزیع شده را فهرست می کند. برای مثال های کامل، بخش بعدی را ببینید.
دامنه Strategy ParameterServer
مدل و مجموعه داده در محدوده ParameterServerStrategy
تعریف شده اند.
strategy = tf.distribute.experimental.ParameterServerStrategy(...)
with strategy.scope():
model = tfdf.keras.DistributedGradientBoostedTreesModel()
distributed_train_dataset = strategy.distribute_datasets_from_function(dataset_fn)
model.fit(distributed_train_dataset)
فرمت مجموعه داده
مانند آموزش های غیر توزیعی، مجموعه داده ها را می توان به عنوان ارائه کرد
- یک مجموعه داده توزیع شده جریان تنسور محدود، یا
- یک مسیر به فایل های مجموعه داده با استفاده از یکی از قالب های داده سازگار .
استفاده از فایلهای خرد شده بهطور قابلتوجهی سادهتر از استفاده از روش مجموعه دادههای توزیع شده جریان محدود است (1 خط در مقابل 20 خط کد). با این حال، تنها رویکرد مجموعه داده tensorflow از پیش پردازش TensorFlow پشتیبانی می کند. اگر خط لوله شما حاوی هیچ گونه پیش پردازشی نیست، گزینه مجموعه داده خرد شده توصیه می شود.
در هر دو مورد، مجموعه داده باید در چندین فایل به اشتراک گذاشته شود تا خواندن مجموعه داده به طور موثر توزیع شود.
کارگران راه اندازی
یک فرآیند اصلی برنامهای است که کد پایتون را اجرا میکند که مدل TensorFlow را تعریف میکند. این فرآیند محاسبات سنگینی را انجام نمی دهد. محاسبات آموزشی موثر توسط کارگران انجام می شود. کارگران فرآیندهایی هستند که یک سرور پارامتر TensorFlow را اجرا می کنند.
رئیس باید با آدرس IP کارگران پیکربندی شود. این کار را می توان با استفاده از متغیر محیطی TF_CONFIG
یا با ایجاد یک ClusterResolver
انجام داد. برای جزئیات بیشتر به آموزش سرور پارامتر با ParameterServerStrategy مراجعه کنید.
ParameterServerStrategy TensorFlow دو نوع کارگر را تعریف می کند: "workers" و "parameter server". TensorFlow به حداقل یکی از هر نوع کارگر نیاز دارد تا نمونه سازی شود. با این حال، TF-DF فقط از "کارگر" استفاده می کند. بنابراین، یک "سرور پارامتر" باید نمونه سازی شود اما توسط TF-DF استفاده نخواهد شد. به عنوان مثال، پیکربندی یک آموزش TF-DF ممکن است به صورت زیر باشد:
- 1 رئیس
- 50 کارگر
- 1 سرور پارامتر
کارگران نیاز به دسترسی به عملیات آموزشی سفارشی TensorFlow Decision Forests دارند. دو گزینه برای فعال کردن دسترسی وجود دارد:
- از سرور پارامتر از پیش پیکربندی شده TF-DF C++
//third_party/tensorflow_decision_forests/tensorflow/distribute:tensorflow_std_server
استفاده کنید. - با فراخوانی
tf.distribute.Server()
یک سرور پارامتر ایجاد کنید. در این مورد، TF-DF بایدimport tensorflow_decision_forests
وارد شود.
نمونه ها
این بخش نمونه های کاملی از تنظیمات آموزشی توزیع شده را نشان می دهد. برای مثالهای بیشتر، تستهای واحد TF-DF را بررسی کنید.
مثال: آموزش توزیع شده در مسیر مجموعه داده
مجموعه داده خود را با استفاده از یکی از قالب های داده سازگار به مجموعه ای از فایل های خرد شده تقسیم کنید. توصیه میشود فایلها را به صورت زیر نامگذاری کنید: به عنوان مثال /path/to/dataset/train-<5 digit index>-of-<total files>
/path/to/dataset/train-00000-of-00100
/path/to/dataset/train-00001-of-00005
/path/to/dataset/train-00002-of-00005
...
برای حداکثر کارایی، تعداد فایل ها باید حداقل 10 برابر تعداد کارگران باشد. به عنوان مثال، اگر با 100 کارگر در حال آموزش هستید، مطمئن شوید که مجموعه داده به حداقل 1000 فایل تقسیم شده است.
سپس فایل ها را می توان با یک عبارت اشتراک گذاری مانند:
- /path/to/dataset/train@1000
- /path/to/dataset/train@*
آموزش توزیع شده به شرح زیر انجام می شود. در این مثال، مجموعه داده به عنوان یک TFRecord از نمونههای TensorFlow (تعریف شده توسط کلید tfrecord+tfe
) ذخیره میشود.
import tensorflow_decision_forests as tfdf
import tensorflow as tf
strategy = tf.distribute.experimental.ParameterServerStrategy(...)
with strategy.scope():
model = tfdf.keras.DistributedGradientBoostedTreesModel()
model.fit_on_dataset_path(
train_path="/path/to/dataset/train@1000",
label_key="label_key",
dataset_format="tfrecord+tfe")
print("Trained model")
model.summary()
مثال: آموزش توزیع شده بر روی یک مجموعه داده توزیع شده محدود TensorFlow
TF-DF انتظار دارد یک مجموعه داده TensorFlow با کارگر تقسیم شده محدود توزیع شده باشد:
- توزیع شده : یک مجموعه داده غیر توزیع شده در
strategy.distribute_datasets_from_function
پیچیده شده است. - محدود : مجموعه داده باید هر مثال را دقیقاً یک بار بخواند. مجموعه داده نباید حاوی دستورالعمل های
repeat
باشد. - worker-sharded : هر کارگر باید بخشی جداگانه از مجموعه داده را بخواند.
در اینجا یک مثال است:
import tensorflow_decision_forests as tfdf
import tensorflow as tf
def dataset_fn(context, paths):
"""Create a worker-sharded finite dataset from paths.
Like for non-distributed training, each example should be visited exactly
once (and by only one worker) during the training. In addition, for optimal
training speed, the reading of the examples should be distributed among the
workers (instead of being read by a single worker, or read and discarded
multiple times).
In other words, don't add a "repeat" statement and make sure to shard the
dataset at the file level and not at the example level.
"""
# List the dataset files
ds_path = tf.data.Dataset.from_tensor_slices(paths)
# Make sure the dataset is used with distributed training.
assert context is not None
# Split the among the workers.
#
# Note: The "shard" is applied on the file path. The shard should not be
# applied on the examples directly.
# Note: You cannot use 'context.num_input_pipelines' with ParameterServerV2.
current_worker = tfdf.keras.get_worker_idx_and_num_workers(context)
ds_path = ds_path.shard(
num_shards=current_worker.num_workers,
index=current_worker.worker_idx)
def read_csv_file(path):
"""Reads a single csv file."""
numerical = tf.constant([0.0], dtype=tf.float32)
categorical_string = tf.constant(["NA"], dtype=tf.string)
csv_columns = [
numerical, # feature 1
categorical_string, # feature 2
numerical, # feature 3
# ... define the features here.
]
return tf.data.experimental.CsvDataset(path, csv_columns, header=True)
ds_columns = ds_path.interleave(read_csv_file)
# We assume a binary classification label with the following possible values.
label_values = ["<=50K", ">50K"]
# Convert the text labels into integers:
# "<=50K" => 0
# ">50K" => 1
init_label_table = tf.lookup.KeyValueTensorInitializer(
keys=tf.constant(label_values),
values=tf.constant(range(label_values), dtype=tf.int64))
label_table = tf.lookup.StaticVocabularyTable(
init_label_table, num_oov_buckets=1)
def extract_label(*columns):
return columns[0:-1], label_table.lookup(columns[-1])
ds_dataset = ds_columns.map(extract_label)
# The batch size has no impact on the quality of the model. However, a larger
# batch size generally is faster.
ds_dataset = ds_dataset.batch(500)
return ds_dataset
strategy = tf.distribute.experimental.ParameterServerStrategy(...)
with strategy.scope():
model = tfdf.keras.DistributedGradientBoostedTreesModel()
train_dataset = strategy.distribute_datasets_from_function(
lambda context: dataset_fn(context, [...list of csv files...])
)
model.fit(train_dataset)
print("Trained model")
model.summary()
مثال: تنظیم فراپارامتر توزیع شده در یک مسیر داده
تنظیم فراپارامتر توزیع شده در مسیر مجموعه داده مشابه آموزش توزیع شده است. تنها تفاوت این است که این گزینه با مدل های غیر توزیع سازگار است. به عنوان مثال، میتوانید تنظیم فراپارامتری (غیر توزیعشده) Gradient Boosted Trees را توزیع کنید.
with strategy.scope():
tuner = tfdf.tuner.RandomSearch(num_trials=30, use_predefined_hps=True)
model = tfdf.keras.GradientBoostedTreesModel(tuner=tuner)
training_history = model.fit_on_dataset_path(
train_path=train_path,
label_key=label,
dataset_format="csv",
valid_path=test_path)
logging.info("Trained model:")
model.summary()
مثال: تست واحد
برای تست واحد آموزش توزیع شده، می توانید فرآیندهای کارگری ساختگی ایجاد کنید. برای اطلاعات بیشتر به روش _create_in_process_tf_ps_cluster
در تست های واحد TF-DF مراجعه کنید.