TensorFlow ডেটা ভ্যালিডেশন (TFDV) হল মেশিন লার্নিং ডেটা অন্বেষণ এবং যাচাই করার জন্য একটি লাইব্রেরি। এটিকে অত্যন্ত পরিমাপযোগ্য এবং টেনসরফ্লো এবং টেনসরফ্লো এক্সটেন্ডেড (টিএফএক্স) এর সাথে ভালভাবে কাজ করার জন্য ডিজাইন করা হয়েছে।
TF ডেটা যাচাইকরণের মধ্যে রয়েছে:
- প্রশিক্ষণ এবং পরীক্ষার ডেটার সারাংশ পরিসংখ্যানের পরিমাপযোগ্য গণনা।
- ডেটা বন্টন এবং পরিসংখ্যানের জন্য দর্শকের সাথে একীকরণ, সেইসাথে বৈশিষ্ট্যগুলির জোড়ার দিকগত তুলনা ( ফ্যাসেট )
- প্রয়োজনীয় মান, পরিসর এবং শব্দভান্ডারের মতো ডেটা সম্পর্কে প্রত্যাশাগুলি বর্ণনা করতে স্বয়ংক্রিয় ডেটা-স্কিমা জেনারেশন
- স্কিমা পরিদর্শন করতে আপনাকে সাহায্য করার জন্য একটি স্কিমা ভিউয়ার৷
- অসঙ্গতি শনাক্ত করতে অসঙ্গতি সনাক্তকরণ, যেমন অনুপস্থিত বৈশিষ্ট্য, সীমার বাইরের মান, বা ভুল বৈশিষ্ট্যের ধরন, কয়েকটি নাম।
- একটি অসামঞ্জস্য দর্শক যাতে আপনি দেখতে পারেন কোন বৈশিষ্ট্যগুলিতে অসামঞ্জস্য রয়েছে এবং সেগুলি সংশোধন করার জন্য আরও শিখতে পারেন৷
TFDV ব্যবহারের নির্দেশাবলীর জন্য, শুরু করার নির্দেশিকাটি দেখুন এবং উদাহরণ নোটবুকটি ব্যবহার করে দেখুন। TFDV-তে বাস্তবায়িত কিছু কৌশল SysML'19-এ প্রকাশিত একটি প্রযুক্তিগত গবেষণাপত্রে বর্ণিত হয়েছে।
PyPI থেকে ইনস্টল করা হচ্ছে
TFDV ইনস্টল করার প্রস্তাবিত উপায় হল PyPI প্যাকেজ ব্যবহার করা:
pip install tensorflow-data-validation
রাত্রিকালীন প্যাকেজ
TFDV Google ক্লাউডে রাতের প্যাকেজগুলিও হোস্ট করে৷ সর্বশেষ রাতের প্যাকেজ ইনস্টল করতে, অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation
এটি TFDV-এর প্রধান নির্ভরতা যেমন টেনসরফ্লো মেটাডেটা (TFMD) এবং TFX বেসিক শেয়ার্ড লাইব্রেরি (TFX-BSL) এর জন্য রাতের প্যাকেজগুলি ইনস্টল করবে।
কখনও কখনও TFDV সেই নির্ভরতাগুলির সাম্প্রতিক পরিবর্তনগুলি ব্যবহার করে, যা এখনও প্রকাশিত হয়নি। এই কারণে, রাত্রিকালীন TFDV ব্যবহার করার সময় এই নির্ভরশীল লাইব্রেরিগুলির রাত্রিকালীন সংস্করণগুলি ব্যবহার করা নিরাপদ। এটি করতে TFX_DEPENDENCY_SELECTOR
এনভায়রনমেন্ট ভেরিয়েবল রপ্তানি করুন।
ডকার দিয়ে তৈরি করুন
এটি লিনাক্সের অধীনে TFDV তৈরি করার প্রস্তাবিত উপায়, এবং ক্রমাগত Google-এ পরীক্ষা করা হয়।
1. ডকার ইনস্টল করুন
অনুগ্রহ করে প্রথমে নির্দেশাবলী অনুসরণ করে docker
এবং docker-compose
ইনস্টল করুন: ডকার ; ডকার-কম্পোজ
2. TFDV সংগ্রহস্থল ক্লোন করুন
git clone https://github.com/tensorflow/data-validation
cd data-validation
মনে রাখবেন যে এই নির্দেশাবলী TensorFlow ডেটা যাচাইকরণের সর্বশেষ মাস্টার শাখা ইনস্টল করবে। আপনি যদি একটি নির্দিষ্ট শাখা (যেমন একটি প্রকাশ শাখা) ইনস্টল করতে চান, git clone
কমান্ডে -b <branchname>
পাস করুন।
3. পিপ প্যাকেজ তৈরি করুন
তারপরে, প্রকল্প রুটে নিম্নলিখিত চালান:
sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010
যেখানে PYTHON_VERSION
হল {39, 310, 311}
এর মধ্যে একটি।
dist/
অধীনে একটি চাকা তৈরি করা হবে।
4. পিপ প্যাকেজ ইনস্টল করুন
pip install dist/*.whl
উৎস থেকে তৈরি করুন
1. পূর্বশর্ত
TFDV কম্পাইল এবং ব্যবহার করতে, আপনাকে কিছু পূর্বশর্ত সেট আপ করতে হবে।
NumPy ইনস্টল করুন
যদি আপনার সিস্টেমে NumPy ইনস্টল করা না থাকে, তাহলে এই নির্দেশাবলী অনুসরণ করে এটি এখনই ইনস্টল করুন।
Bazel ইনস্টল করুন
যদি আপনার সিস্টেমে Bazel ইনস্টল করা না থাকে, তাহলে এই নির্দেশাবলী অনুসরণ করে এটি এখনই ইনস্টল করুন।
2. TFDV সংগ্রহস্থল ক্লোন করুন
git clone https://github.com/tensorflow/data-validation
cd data-validation
মনে রাখবেন যে এই নির্দেশাবলী TensorFlow ডেটা যাচাইকরণের সর্বশেষ মাস্টার শাখা ইনস্টল করবে। আপনি যদি একটি নির্দিষ্ট শাখা (যেমন একটি প্রকাশ শাখা) ইনস্টল করতে চান, git clone
কমান্ডে -b <branchname>
পাস করুন।
3. পিপ প্যাকেজ তৈরি করুন
TFDV
হুইল হল পাইথন সংস্করণ নির্ভর -- একটি নির্দিষ্ট পাইথন সংস্করণের জন্য কাজ করে এমন পিপ প্যাকেজ তৈরি করতে, সেই পাইথন বাইনারিটি চালানোর জন্য ব্যবহার করুন:
python setup.py bdist_wheel
আপনি dist
সাবডিরেক্টরিতে জেনারেট করা .whl
ফাইলটি খুঁজে পেতে পারেন।
4. পিপ প্যাকেজ ইনস্টল করুন
pip install dist/*.whl
সমর্থিত প্ল্যাটফর্ম
TFDV নিম্নলিখিত 64-বিট অপারেটিং সিস্টেমে পরীক্ষা করা হয়:
- macOS 12.5 (Monterey) বা তার পরে।
- উবুন্টু 20.04 বা তার পরে।
উল্লেখযোগ্য নির্ভরতা
টেনসরফ্লো প্রয়োজন।
অ্যাপাচি রশ্মি প্রয়োজন; এটি দক্ষ বিতরণ গণনা সমর্থিত যে উপায়. ডিফল্টরূপে, Apache Beam স্থানীয় মোডে চলে কিন্তু Google Cloud Dataflow এবং অন্যান্য Apache Beam রানার ব্যবহার করে বিতরণ করা মোডেও চলতে পারে।
Apache তীর এছাড়াও প্রয়োজন. TFDV ভেক্টরাইজড নম্পি ফাংশন ব্যবহার করার জন্য অভ্যন্তরীণভাবে ডেটা উপস্থাপন করতে তীর ব্যবহার করে।
সামঞ্জস্যপূর্ণ সংস্করণ
নিম্নলিখিত সারণী প্যাকেজ সংস্করণগুলি দেখায় যা একে অপরের সাথে সামঞ্জস্যপূর্ণ। এটি আমাদের পরীক্ষার কাঠামোর দ্বারা নির্ধারিত হয়, তবে অন্যান্য অ-পরীক্ষিত সমন্বয়গুলিও কাজ করতে পারে।
tensorflow-ডেটা-বৈধকরণ | অ্যাপাচি-বিম [জিসিপি] | পিয়ারো | tensorflow | tensorflow-metadata | tensorflow-রূপান্তর | tfx-bsl |
---|---|---|---|---|---|---|
গিটহাব মাস্টার | 2.47.0 | 10.0.0 | রাত্রিকালীন (1.x/2.x) | 1.15.0 | n/a | 1.15.1 |
1.15.1 | 2.47.0 | 10.0.0 | 2.15 | 1.15.0 | n/a | 1.15.1 |
1.15.0 | 2.47.0 | 10.0.0 | 2.15 | 1.15.0 | n/a | 1.15.0 |
1.14.0 | 2.47.0 | 10.0.0 | 2.13 | 1.14.0 | n/a | 1.14.0 |
1.13.0 | 2.40.0 | 6.0.0 | 2.12 | 1.13.1 | n/a | 1.13.0 |
1.12.0 | 2.40.0 | 6.0.0 | 2.11 | 1.12.0 | n/a | 1.12.0 |
1.11.0 | 2.40.0 | 6.0.0 | 1.15 / 2.10 | 1.11.0 | n/a | 1.11.0 |
1.10.0 | 2.40.0 | 6.0.0 | 1.15 / 2.9 | 1.10.0 | n/a | 1.10.1 |
1.9.0 | 2.38.0 | 5.0.0 | 1.15 / 2.9 | 1.9.0 | n/a | 1.9.0 |
1.8.0 | 2.38.0 | 5.0.0 | 1.15 / 2.8 | 1.8.0 | n/a | 1.8.0 |
1.7.0 | 2.36.0 | 5.0.0 | 1.15 / 2.8 | 1.7.0 | n/a | 1.7.0 |
1.6.0 | 2.35.0 | 5.0.0 | 1.15 / 2.7 | 1.6.0 | n/a | 1.6.0 |
1.5.0 | 2.34.0 | 2.0.0 | 1.15 / 2.7 | 1.5.0 | n/a | 1.5.0 |
1.4.0 | 2.32.0 | 2.0.0 | 1.15 / 2.6 | 1.4.0 | n/a | 1.4.0 |
1.3.0 | 2.32.0 | 2.0.0 | 1.15 / 2.6 | 1.2.0 | n/a | 1.3.0 |
1.2.0 | 2.31.0 | 2.0.0 | 1.15 / 2.5 | 1.2.0 | n/a | 1.2.0 |
1.1.1 | 2.29.0 | 2.0.0 | 1.15 / 2.5 | 1.1.0 | n/a | 1.1.1 |
1.1.0 | 2.29.0 | 2.0.0 | 1.15 / 2.5 | 1.1.0 | n/a | 1.1.0 |
1.0.0 | 2.29.0 | 2.0.0 | 1.15 / 2.5 | 1.0.0 | n/a | 1.0.0 |
0.30.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.30.0 | n/a | 0.30.0 |
0.29.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.29.0 | n/a | 0.29.0 |
0.28.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.28.0 | n/a | 0.28.1 |
0.27.0 | 2.27.0 | 2.0.0 | 1.15 / 2.4 | 0.27.0 | n/a | 0.27.0 |
0.26.1 | 2.28.0 | 0.17.0 | 1.15 / 2.3 | 0.26.0 | 0.26.0 | 0.26.0 |
0.26.0 | 2.25.0 | 0.17.0 | 1.15 / 2.3 | 0.26.0 | 0.26.0 | 0.26.0 |
0.25.0 | 2.25.0 | 0.17.0 | 1.15 / 2.3 | 0.25.0 | 0.25.0 | 0.25.0 |
0.24.1 | 2.24.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.1 | 0.24.1 |
0.24.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.0 | 0.24.0 |
0.23.1 | 2.24.0 | 0.17.0 | 1.15 / 2.3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.23.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.22.2 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.1 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.0 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.0 |
0.21.5 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.4 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.2 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.1 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.0 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.15.0 | 2.16.0 | 0.14.0 | 1.15 / 2.0 | 0.15.0 | 0.15.0 | 0.15.0 |
0.14.1 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | n/a |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | n/a |
0.13.1 | 2.11.0 | n/a | 1.13 | 0.12.1 | 0.13.0 | n/a |
0.13.0 | 2.11.0 | n/a | 1.13 | 0.12.1 | 0.13.0 | n/a |
0.12.0 | 2.10.0 | n/a | 1.12 | 0.12.1 | 0.12.0 | n/a |
0.11.0 | 2.8.0 | n/a | 1.11 | 0.9.0 | 0.11.0 | n/a |
0.9.0 | 2.6.0 | n/a | 1.9 | n/a | n/a | n/a |
প্রশ্ন
টেনসরফ্লো-ডেটা-ভ্যালিডেশন ট্যাগ ব্যবহার করে স্ট্যাক ওভারফ্লোতে TF ডেটা যাচাইকরণের সাথে কাজ করার বিষয়ে যেকোনো প্রশ্ন করুন।