TensorFlow डेटा सत्यापन

GitHub पर देखें

TensorFlow डेटा वैलिडेशन (TFDV) मशीन लर्निंग डेटा की खोज और सत्यापन के लिए एक लाइब्रेरी है। इसे अत्यधिक स्केलेबल होने और टेन्सरफ्लो और टेन्सरफ्लो एक्सटेंडेड (टीएफएक्स) के साथ अच्छी तरह से काम करने के लिए डिज़ाइन किया गया है।

टीएफ डेटा सत्यापन में शामिल हैं:

  • प्रशिक्षण और परीक्षण डेटा के सारांश आंकड़ों की स्केलेबल गणना।
  • डेटा वितरण और आंकड़ों के लिए एक दर्शक के साथ एकीकरण, साथ ही सुविधाओं के जोड़े की पहलू तुलना ( पहलू )
  • आवश्यक मानों, श्रेणियों और शब्दावलियों जैसी डेटा के बारे में अपेक्षाओं का वर्णन करने के लिए स्वचालित डेटा-स्कीमा पीढ़ी
  • स्कीमा का निरीक्षण करने में आपकी सहायता के लिए एक स्कीमा व्यूअर।
  • विसंगतियों की पहचान करने के लिए विसंगति का पता लगाना, जैसे गायब विशेषताएं, सीमा से बाहर मान, या गलत सुविधा प्रकार, कुछ का नाम लेना।
  • एक विसंगति दर्शक ताकि आप देख सकें कि किन विशेषताओं में विसंगतियाँ हैं और उन्हें ठीक करने के लिए और अधिक जानें।

टीएफडीवी का उपयोग करने के निर्देशों के लिए, आरंभ मार्गदर्शिका देखें और उदाहरण नोटबुक आज़माएं। टीएफडीवी में लागू की गई कुछ तकनीकों का वर्णन SysML'19 में प्रकाशित एक तकनीकी पेपर में किया गया है।

PyPI से इंस्टॉल किया जा रहा है

TFDV स्थापित करने का अनुशंसित तरीका PyPI पैकेज का उपयोग करना है:

pip install tensorflow-data-validation

रात्रिकालीन पैकेज

TFDV Google क्लाउड पर रात्रिकालीन पैकेज भी होस्ट करता है। नवीनतम रात्रिकालीन पैकेज स्थापित करने के लिए, कृपया निम्नलिखित कमांड का उपयोग करें:

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

यह TFDV की प्रमुख निर्भरताओं जैसे कि TensorFlow मेटाडेटा (TFMD) और TFX बेसिक शेयर्ड लाइब्रेरीज़ (TFX-BSL) के लिए रात्रिकालीन पैकेज स्थापित करेगा।

कभी-कभी टीएफडीवी उन निर्भरताओं के सबसे हालिया परिवर्तनों का उपयोग करता है, जो अभी तक जारी नहीं किए गए हैं। इस वजह से, रात्रिकालीन टीएफडीवी का उपयोग करते समय उन आश्रित पुस्तकालयों के रात्रिकालीन संस्करणों का उपयोग करना अधिक सुरक्षित है। ऐसा करने के लिए TFX_DEPENDENCY_SELECTOR पर्यावरण चर निर्यात करें।

डॉकर के साथ निर्माण करें

यह Linux के अंतर्गत TFDV बनाने का अनुशंसित तरीका है, और Google पर इसका लगातार परीक्षण किया जाता है।

1. डॉकर स्थापित करें

कृपया पहले निर्देशों का पालन करके docker और docker-compose इंस्टॉल करें: docker ; डोकर-रचना

2. TFDV रिपॉजिटरी को क्लोन करें

git clone https://github.com/tensorflow/data-validation
cd data-validation

ध्यान दें कि ये निर्देश TensorFlow डेटा सत्यापन की नवीनतम मास्टर शाखा स्थापित करेंगे। यदि आप एक विशिष्ट शाखा (जैसे रिलीज शाखा) स्थापित करना चाहते हैं, git clone कमांड को -b <branchname> पास करें।

3. पिप पैकेज बनाएं

फिर, प्रोजेक्ट रूट पर निम्नलिखित चलाएँ:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

जहां PYTHON_VERSION {39, 310, 311} में से एक है।

dist/ के तहत एक पहिया का उत्पादन किया जाएगा।

4. पिप पैकेज स्थापित करें

pip install dist/*.whl

स्रोत से निर्माण करें

1. पूर्वापेक्षाएँ

TFDV को संकलित और उपयोग करने के लिए, आपको कुछ पूर्वावश्यकताएँ सेट करने की आवश्यकता है।

NumPy इंस्टॉल करें

यदि आपके सिस्टम पर NumPy इंस्टॉल नहीं है, तो इन निर्देशों का पालन करके इसे अभी इंस्टॉल करें।

बेज़ेल स्थापित करें

यदि आपके सिस्टम पर बेज़ेल स्थापित नहीं है, तो इन निर्देशों का पालन करके इसे अभी स्थापित करें।

2. TFDV रिपॉजिटरी को क्लोन करें

git clone https://github.com/tensorflow/data-validation
cd data-validation

ध्यान दें कि ये निर्देश TensorFlow डेटा सत्यापन की नवीनतम मास्टर शाखा स्थापित करेंगे। यदि आप एक विशिष्ट शाखा (जैसे रिलीज शाखा) स्थापित करना चाहते हैं, git clone कमांड को -b <branchname> पास करें।

3. पिप पैकेज बनाएं

TFDV व्हील पायथन संस्करण पर निर्भर है - एक विशिष्ट पायथन संस्करण के लिए काम करने वाले पाइप पैकेज को बनाने के लिए, चलाने के लिए उस पायथन बाइनरी का उपयोग करें:

python setup.py bdist_wheel

आप जेनरेट की गई .whl फ़ाइल को dist उपनिर्देशिका में पा सकते हैं।

4. पिप पैकेज स्थापित करें

pip install dist/*.whl

समर्थित प्लेटफार्म

TFDV का परीक्षण निम्नलिखित 64-बिट ऑपरेटिंग सिस्टम पर किया जाता है:

  • macOS 12.5 (मोंटेरे) या बाद का संस्करण।
  • उबंटू 20.04 या बाद का संस्करण।

उल्लेखनीय निर्भरताएँ

TensorFlow आवश्यक है.

अपाचे बीम आवश्यक है; यह वह तरीका है जिससे कुशल वितरित संगणना समर्थित है। डिफ़ॉल्ट रूप से, अपाचे बीम स्थानीय मोड में चलता है लेकिन Google क्लाउड डेटाफ़्लो और अन्य अपाचे बीम धावकों का उपयोग करके वितरित मोड में भी चलाया जा सकता है।

अपाचे एरो भी आवश्यक है. टीएफडीवी वेक्टरकृत सुन्न कार्यों का उपयोग करने के लिए आंतरिक रूप से डेटा का प्रतिनिधित्व करने के लिए एरो का उपयोग करता है।

संगत संस्करण

निम्न तालिका उन पैकेज संस्करणों को दिखाती है जो एक दूसरे के साथ संगत हैं। यह हमारे परीक्षण ढांचे द्वारा निर्धारित किया जाता है, लेकिन अन्य परीक्षण न किए गए संयोजन भी काम कर सकते हैं।

टेंसरफ़्लो-डेटा-सत्यापन अपाचे-बीम[जीसीपी] पायरो टेंसरफ्लो टेंसरफ़्लो-मेटाडेटा टेंसरफ़्लो-परिवर्तन tfx-बीएसएल
गिटहब मास्टर 2.47.0 10.0.0 रात्रिकालीन (1.x/2.x) 1.15.0 एन/ए 1.15.1
1.15.1 2.47.0 10.0.0 2.15 1.15.0 एन/ए 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 एन/ए 1.15.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 एन/ए 1.14.0
1.13.0 2.40.0 6.0.0 2.12 1.13.1 एन/ए 1.13.0
1.12.0 2.40.0 6.0.0 2.11 1.12.0 एन/ए 1.12.0
1.11.0 2.40.0 6.0.0 1.15/2.10 1.11.0 एन/ए 1.11.0
1.10.0 2.40.0 6.0.0 1.15/2.9 1.10.0 एन/ए 1.10.1
1.9.0 2.38.0 5.0.0 1.15/2.9 1.9.0 एन/ए 1.9.0
1.8.0 2.38.0 5.0.0 1.15/2.8 1.8.0 एन/ए 1.8.0
1.7.0 2.36.0 5.0.0 1.15/2.8 1.7.0 एन/ए 1.7.0
1.6.0 2.35.0 5.0.0 1.15/2.7 1.6.0 एन/ए 1.6.0
1.5.0 2.34.0 2.0.0 1.15/2.7 1.5.0 एन/ए 1.5.0
1.4.0 2.32.0 2.0.0 1.15/2.6 1.4.0 एन/ए 1.4.0
1.3.0 2.32.0 2.0.0 1.15/2.6 1.2.0 एन/ए 1.3.0
1.2.0 2.31.0 2.0.0 1.15/2.5 1.2.0 एन/ए 1.2.0
1.1.1 2.29.0 2.0.0 1.15/2.5 1.1.0 एन/ए 1.1.1
1.1.0 2.29.0 2.0.0 1.15/2.5 1.1.0 एन/ए 1.1.0
1.0.0 2.29.0 2.0.0 1.15/2.5 1.0.0 एन/ए 1.0.0
0.30.0 2.28.0 2.0.0 1.15/2.4 0.30.0 एन/ए 0.30.0
0.29.0 2.28.0 2.0.0 1.15/2.4 0.29.0 एन/ए 0.29.0
0.28.0 2.28.0 2.0.0 1.15/2.4 0.28.0 एन/ए 0.28.1
0.27.0 2.27.0 2.0.0 1.15/2.4 0.27.0 एन/ए 0.27.0
0.26.1 2.28.0 0.17.0 1.15/2.3 0.26.0 0.26.0 0.26.0
0.26.0 2.25.0 0.17.0 1.15/2.3 0.26.0 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1.15/2.3 0.25.0 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1.15/2.3 0.24.0 0.24.1 0.24.1
0.24.0 2.23.0 0.17.0 1.15/2.3 0.24.0 0.24.0 0.24.0
0.23.1 2.24.0 0.17.0 1.15/2.3 0.23.0 0.23.0 0.23.0
0.23.0 2.23.0 0.17.0 1.15/2.3 0.23.0 0.23.0 0.23.0
0.22.2 2.20.0 0.16.0 1.15/2.2 0.22.0 0.22.0 0.22.1
0.22.1 2.20.0 0.16.0 1.15/2.2 0.22.0 0.22.0 0.22.1
0.22.0 2.20.0 0.16.0 1.15/2.2 0.22.0 0.22.0 0.22.0
0.21.5 2.17.0 0.15.0 1.15/2.1 0.21.0 0.21.1 0.21.3
0.21.4 2.17.0 0.15.0 1.15/2.1 0.21.0 0.21.1 0.21.3
0.21.2 2.17.0 0.15.0 1.15/2.1 0.21.0 0.21.0 0.21.0
0.21.1 2.17.0 0.15.0 1.15/2.1 0.21.0 0.21.0 0.21.0
0.21.0 2.17.0 0.15.0 1.15/2.1 0.21.0 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1.15/2.0 0.15.0 0.15.0 0.15.0
0.14.1 2.14.0 0.14.0 1.14 0.14.0 0.14.0 एन/ए
0.14.0 2.14.0 0.14.0 1.14 0.14.0 0.14.0 एन/ए
0.13.1 2.11.0 एन/ए 1.13 0.12.1 0.13.0 एन/ए
0.13.0 2.11.0 एन/ए 1.13 0.12.1 0.13.0 एन/ए
0.12.0 2.10.0 एन/ए 1.12 0.12.1 0.12.0 एन/ए
0.11.0 2.8.0 एन/ए 1.11 0.9.0 0.11.0 एन/ए
0.9.0 2.6.0 एन/ए 1.9 एन/ए एन/ए एन/ए

प्रश्न

कृपया टेंसरफ़्लो-डेटा-सत्यापन टैग का उपयोग करके टीएफ डेटा सत्यापन के साथ काम करने के बारे में किसी भी प्रश्न को स्टैक ओवरफ्लो पर निर्देशित करें।