একটি নতুন ডেটাসেট সংগ্রহ তৈরি করতে এই নির্দেশিকা অনুসরণ করুন (হয় TFDS বা আপনার নিজস্ব সংগ্রহস্থলে)।
ওভারভিউ
TFDS-এ একটি নতুন ডেটাসেট সংগ্রহ my_collection
যোগ করতে, ব্যবহারকারীদের নিম্নলিখিত ফাইলগুলি সহ একটি my_collection
ফোল্ডার তৈরি করতে হবে:
my_collection/
__init__.py
my_collection.py # Dataset collection definition
my_collection_test.py # (Optional) test
description.md # (Optional) collection description (if not included in my_collection.py)
citations.md # (Optional) collection citations (if not included in my_collection.py)
একটি নিয়ম হিসাবে, নতুন ডেটাসেট সংগ্রহগুলি TFDS সংগ্রহস্থলের tensorflow_datasets/dataset_collections/
ফোল্ডারে যোগ করা উচিত।
আপনার ডেটাসেট সংগ্রহ লিখুন
সমস্ত ডেটাসেট সংগ্রহ tfds.core.dataset_collection_builder.DatasetCollection
এর সাবক্লাস প্রয়োগ করা হয়।
এখানে একটি ডেটাসেট সংগ্রহ নির্মাতার একটি ন্যূনতম উদাহরণ, যা my_collection.py
ফাইলে সংজ্ঞায়িত করা হয়েছে:
import collections
from typing import Mapping
from tensorflow_datasets.core import dataset_collection_builder
from tensorflow_datasets.core import naming
class MyCollection(dataset_collection_builder.DatasetCollection):
"""Dataset collection builder my_dataset_collection."""
@property
def info(self) -> dataset_collection_builder.DatasetCollectionInfo:
return dataset_collection_builder.DatasetCollectionInfo.from_cls(
dataset_collection_class=self.__class__,
description="my_dataset_collection description.",
release_notes={
"1.0.0": "Initial release",
},
)
@property
def datasets(
self,
) -> Mapping[str, Mapping[str, naming.DatasetReference]]:
return collections.OrderedDict({
"1.0.0":
naming.references_for({
"dataset_1": "natural_questions/default:0.0.2",
"dataset_2": "media_sum:1.0.0",
}),
"1.1.0":
naming.references_for({
"dataset_1": "natural_questions/longt5:0.1.0",
"dataset_2": "media_sum:1.0.0",
"dataset_3": "squad:3.0.0"
})
})
পরবর্তী বিভাগগুলি ওভাররাইট করার জন্য 2টি বিমূর্ত পদ্ধতি বর্ণনা করে।
info
: ডেটাসেট সংগ্রহ মেটাডেটা
info
পদ্ধতি dataset_collection_builder.DatasetCollectionInfo
প্রদান করে। সংগ্রহের মেটাডেটা ধারণকারী ডেটাসেট সংগ্রহ তথ্য।
ডেটাসেট সংগ্রহের তথ্যে চারটি ক্ষেত্র রয়েছে:
- নাম: ডেটাসেট সংগ্রহের নাম।
- বর্ণনা: ডেটাসেট সংগ্রহের একটি মার্কডাউন-ফরম্যাটেড বিবরণ। একটি ডেটাসেট সংগ্রহের বিবরণ সংজ্ঞায়িত করার দুটি উপায় রয়েছে: (1) সংগ্রহের
my_collection.py
ফাইলে একটি (মাল্টি-লাইন) স্ট্রিং হিসাবে - একইভাবে এটি ইতিমধ্যেই TFDS ডেটাসেটের জন্য করা হয়েছে; (2) একটিdescription.md
ফাইলে, যা অবশ্যই ডেটাসেট সংগ্রহ ফোল্ডারে রাখতে হবে। - release_notes: ডেটাসেট সংগ্রহের সংস্করণ থেকে সংশ্লিষ্ট রিলিজ নোটে একটি ম্যাপিং।
- উদ্ধৃতি: ডেটাসেট সংগ্রহের জন্য একটি ঐচ্ছিক (তালিকা) BibTeX উদ্ধৃতি(গুলি)৷ একটি ডেটাসেট সংগ্রহের উদ্ধৃতি সংজ্ঞায়িত করার দুটি উপায় রয়েছে: (1) একটি (মাল্টি-লাইন) স্ট্রিং হিসাবে সরাসরি সংগ্রহের
my_collection.py
ফাইলে - একইভাবে এটি ইতিমধ্যে TFDS ডেটাসেটের জন্য করা হয়েছে; (2) একটিcitations.bib
ফাইলে, যা অবশ্যই ডেটাসেট সংগ্রহ ফোল্ডারে স্থাপন করতে হবে।
datasets
: সংগ্রহে থাকা ডেটাসেটগুলি সংজ্ঞায়িত করুন
datasets
পদ্ধতি সংগ্রহে থাকা TFDS ডেটাসেটগুলি ফেরত দেয়।
এটিকে সংস্করণের অভিধান হিসাবে সংজ্ঞায়িত করা হয়, যা ডেটাসেট সংগ্রহের বিবর্তন বর্ণনা করে।
প্রতিটি সংস্করণের জন্য, অন্তর্ভুক্ত TFDS ডেটাসেটগুলি ডেটাসেটের নাম থেকে naming.DatasetReference
পর্যন্ত একটি অভিধান হিসাবে সংরক্ষণ করা হয়।DatasetReference। যেমন:
class MyCollection(dataset_collection_builder.DatasetCollection):
...
@property
def datasets(self):
return {
"1.0.0": {
"yes_no":
naming.DatasetReference(
dataset_name="yes_no", version="1.0.0"),
"sst2":
naming.DatasetReference(
dataset_name="glue", config="sst2", version="2.0.0"),
"assin2":
naming.DatasetReference(
dataset_name="assin2", version="1.0.0"),
},
...
}
naming.references_for
পদ্ধতিটি উপরের মত প্রকাশ করার জন্য আরও কমপ্যাক্ট উপায় প্রদান করে:
class MyCollection(dataset_collection_builder.DatasetCollection):
...
@property
def datasets(self):
return {
"1.0.0":
naming.references_for({
"yes_no": "yes_no:1.0.0",
"sst2": "glue/sst:2.0.0",
"assin2": "assin2:1.0.0",
}),
...
}
আপনার ডেটাসেট সংগ্রহ ইউনিট-পরীক্ষা করুন
DatasetCollectionTestBase হল ডেটাসেট সংগ্রহের জন্য একটি বেস টেস্ট ক্লাস। এটি নিশ্চিত করার জন্য যে ডেটাসেট সংগ্রহ সঠিকভাবে নিবন্ধিত হয়েছে এবং এর ডেটাসেটগুলি TFDS-এ বিদ্যমান তা নিশ্চিত করার জন্য এটি বেশ কয়েকটি সাধারণ চেক প্রদান করে।
সেট করার জন্য একমাত্র ক্লাস অ্যাট্রিবিউট হল DATASET_COLLECTION_CLASS
, যা পরীক্ষা করার জন্য ডেটাসেট সংগ্রহের ক্লাস অবজেক্টকে নির্দিষ্ট করে৷
উপরন্তু, ব্যবহারকারীরা নিম্নলিখিত শ্রেণীর বৈশিষ্ট্য সেট করতে পারেন:
-
VERSION
: পরীক্ষা চালানোর জন্য ব্যবহৃত ডেটাসেট সংগ্রহের সংস্করণ (সর্বশেষ সংস্করণে ডিফল্ট)। -
DATASETS_TO_TEST
: TFDS (সংগ্রহের সমস্ত ডেটাসেটের ডিফল্ট) জন্য অস্তিত্ব পরীক্ষা করার জন্য ডেটাসেট ধারণকারী তালিকা। -
CHECK_DATASETS_VERSION
: ডেটাসেট সংগ্রহে সংস্করণযুক্ত ডেটাসেটের অস্তিত্ব পরীক্ষা করতে হবে নাকি তাদের ডিফল্ট সংস্করণগুলির জন্য (সত্য থেকে ডিফল্ট)।
একটি ডেটাসেট সংগ্রহের জন্য সবচেয়ে সহজ বৈধ পরীক্ষা হবে:
from tensorflow_datasets.testing.dataset_collection_builder_testing import DatasetCollectionTestBase
from . import my_collection
class TestMyCollection(DatasetCollectionTestBase):
DATASET_COLLECTION_CLASS = my_collection.MyCollection
ডেটাসেট সংগ্রহ পরীক্ষা করতে নিম্নলিখিত কমান্ডটি চালান।
python my_dataset_test.py
প্রতিক্রিয়া
আমরা ক্রমাগত ডেটাসেট তৈরির কর্মপ্রবাহ উন্নত করার চেষ্টা করছি, কিন্তু আমরা সমস্যাগুলি সম্পর্কে সচেতন হলেই তা করতে পারি। ডেটাসেট সংগ্রহ তৈরি করার সময় আপনি কোন সমস্যা বা ত্রুটির সম্মুখীন হয়েছেন? এমন একটি অংশ ছিল যা বিভ্রান্তিকর ছিল, বা প্রথমবার কাজ করছিল না?
GitHub এ আপনার মতামত শেয়ার করুন.