বিভক্ত এবং slicing

সমস্ত TFDS ডেটাসেট বিভিন্ন ডেটা স্প্লিট (যেমন 'train' , 'test' ) প্রকাশ করে যা ক্যাটালগে অন্বেষণ করা যেতে পারে। যেকোন বর্ণানুক্রমিক স্ট্রিংকে বিভক্ত নাম হিসাবে ব্যবহার করা যেতে পারে, all বাদ দিয়ে (যা একটি সংরক্ষিত শব্দ যা সমস্ত বিভাজনের মিলনের সাথে সম্পর্কিত, নীচে দেখুন)।

"অফিসিয়াল" ডেটাসেট বিভাজন ছাড়াও, TFDS স্প্লিট(গুলি) এবং বিভিন্ন সংমিশ্রণের স্লাইস(গুলি) নির্বাচন করার অনুমতি দেয়।

স্লাইসিং API

স্লাইসিং নির্দেশাবলী split= kwarg এর মাধ্যমে tfds.load বা tfds.DatasetBuilder.as_dataset এ উল্লেখ করা হয়েছে।

ds = tfds.load('my_dataset', split='train[:75%]')
builder = tfds.builder('my_dataset')
ds = builder.as_dataset(split='test+train[:75%]')

বিভক্ত হতে পারে:

  • প্লেইন স্প্লিট নাম (একটি স্ট্রিং যেমন 'train' , 'test' , ...): বিভক্তের মধ্যে সমস্ত উদাহরণ নির্বাচিত।
  • স্লাইস : স্লাইসগুলি পাইথন স্লাইস স্বরলিপির মতো একই শব্দার্থিক থাকে। স্লাইস হতে পারে:
    • পরম ( 'train[123:450]' , train[:4000] ): (পঠিত আদেশ সম্পর্কে সতর্কতার জন্য নীচের নোট দেখুন)
    • শতাংশ ( 'train[:75%]' , 'train[25%:75%]' ): সম্পূর্ণ ডেটাকে জোড় টুকরো করে ভাগ করুন। ডেটা সমানভাবে বিভাজ্য না হলে, কিছু শতাংশে অতিরিক্ত উদাহরণ থাকতে পারে। ভগ্নাংশ শতাংশ সমর্থিত হয়.
    • Shard ( train[:4shard] , train[4shard] ): অনুরোধ করা শার্ডের সমস্ত উদাহরণ নির্বাচন করুন। (বিভাজনের শার্ডের সংখ্যা পেতে info.splits['train'].num_shards দেখুন)
  • বিভাজনের ইউনিয়ন ( 'train+test' , 'train[:25%]+test' ): বিভক্তগুলি একসাথে আন্তঃলিভ করা হবে।
  • সম্পূর্ণ ডেটাসেট ( 'all' ): 'all' হল একটি বিশেষ বিভক্ত নাম যা সমস্ত বিভাজনের মিলনের সাথে সম্পর্কিত ( 'train+test+...' সমতুল্য)।
  • বিভাজনের তালিকা ( ['train', 'test'] ): একাধিক tf.data.Dataset আলাদাভাবে ফেরত দেওয়া হয়:
# Returns both train and test split separately
train_ds, test_ds = tfds.load('mnist', split=['train', 'test[:50%]'])

tfds.even_splits এবং মাল্টি-হোস্ট প্রশিক্ষণ

tfds.even_splits একই আকারের অ-ওভারল্যাপিং সাব-স্প্লিটগুলির একটি তালিকা তৈরি করে।

# Divide the dataset into 3 even parts, each containing 1/3 of the data
split0, split1, split2 = tfds.even_splits('train', n=3)

ds = tfds.load('my_dataset', split=split2)

বিতরণ করা সেটিংয়ে প্রশিক্ষণের সময় এটি বিশেষভাবে উপযোগী হতে পারে, যেখানে প্রতিটি হোস্টের মূল ডেটার একটি স্লাইস পাওয়া উচিত।

Jax এর সাথে, tfds.split_for_jax_process ব্যবহার করে এটি আরও সহজ করা যেতে পারে:

split = tfds.split_for_jax_process('train', drop_remainder=True)
ds = tfds.load('my_dataset', split=split)

tfds.split_for_jax_process এর জন্য একটি সহজ উপনাম:

# The current `process_index` loads only `1 / process_count` of the data.
splits = tfds.even_splits('train', n=jax.process_count(), drop_remainder=True)
split = splits[jax.process_index()]

tfds.even_splits , tfds.split_for_jax_process ইনপুট হিসাবে যেকোনো বিভক্ত মান গ্রহণ করে (যেমন 'train[75%:]+test' )

স্লাইসিং এবং মেটাডেটা

ডেটাসেট তথ্য ব্যবহার করে বিভক্ত/সাবপ্লিট ( num_examples , file_instructions ,...) সম্পর্কে অতিরিক্ত তথ্য পাওয়া সম্ভব:

builder = tfds.builder('my_dataset')
builder.info.splits['train'].num_examples  # 10_000
builder.info.splits['train[:75%]'].num_examples  # 7_500 (also works with slices)
builder.info.splits.keys()  # ['train', 'test']

ক্রস বৈধতা

স্ট্রিং API ব্যবহার করে 10-গুণ ক্রস-ভ্যালিডেশনের উদাহরণ:

vals_ds = tfds.load('mnist', split=[
    f'train[{k}%:{k+10}%]' for k in range(0, 100, 10)
])
trains_ds = tfds.load('mnist', split=[
    f'train[:{k}%]+train[{k+10}%:]' for k in range(0, 100, 10)
])

বৈধকরণ ডেটাসেট প্রতিটি হতে চলেছে 10%: [0%:10%] , [10%:20%] , ..., [90%:100%] । এবং প্রশিক্ষণ ডেটাসেটগুলি প্রতিটি পরিপূরক হতে চলেছে 90%: [10%:100%] (একটি সংশ্লিষ্ট বৈধকরণ সেটের জন্য [0%:10%] ), `[0%:10%]

  • [20%:100%] (for a validation set of [10%:20%]`),...

tfds.core.ReadInstruction and rounding

str এর পরিবর্তে, tfds.core.ReadInstruction হিসাবে বিভাজন পাস করা সম্ভব।ReadInstruction:

উদাহরণস্বরূপ, split = 'train[50%:75%] + test' এর সমতুল্য:

split = (
    tfds.core.ReadInstruction(
        'train',
        from_=50,
        to=75,
        unit='%',
    )
    + tfds.core.ReadInstruction('test')
)
ds = tfds.load('my_dataset', split=split)

unit হতে পারে:

  • abs : পরম স্লাইসিং
  • % : শতাংশ স্লাইসিং
  • shard : শার্ড স্লাইসিং

tfds.ReadInstruction এরও একটি রাউন্ডিং আর্গুমেন্ট আছে। যদি ডেটাসেটের উদাহরণের সংখ্যা সমানভাবে ভাগ করা না হয়:

  • rounding='closest' (ডিফল্ট): অবশিষ্ট উদাহরণ শতাংশের মধ্যে বিতরণ করা হয়, তাই কিছু শতাংশে অতিরিক্ত উদাহরণ থাকতে পারে।
  • rounding='pct1_dropremainder' : অবশিষ্ট উদাহরণ বাদ দেওয়া হয়েছে, কিন্তু এই গ্যারান্টি সমস্ত শতাংশে একই সংখ্যক উদাহরণ রয়েছে (যেমন: len(5%) == 5 * len(1%) )।

প্রজননযোগ্যতা এবং নির্ণয়বাদ

প্রজন্মের সময়, একটি প্রদত্ত ডেটাসেট সংস্করণের জন্য, TFDS গ্যারান্টি দেয় যে উদাহরণগুলি ডিস্কে নির্ধারকভাবে এলোমেলো করা হয়েছে। সুতরাং ডেটাসেটটি দুবার তৈরি করা (2টি ভিন্ন কম্পিউটারে) উদাহরণের ক্রম পরিবর্তন করবে না।

একইভাবে, সাবস্প্লিট API সর্বদা প্ল্যাটফর্ম, আর্কিটেকচার ইত্যাদি নির্বিশেষে একই উদাহরণের set নির্বাচন করবে। এর মানে set('train[:20%]') == set('train[:10%]') + set('train[10%:20%]')

যাইহোক, উদাহরণগুলি যে ক্রমে পড়া হয় তা নির্ধারক নাও হতে পারে। এটি অন্যান্য প্যারামিটারের উপর নির্ভর করে (যেমন shuffle_files=True কিনা)।