TensorFlow Veri Doğrulaması (TFDV), makine öğrenimi verilerini keşfetmeye ve doğrulamaya yönelik bir kitaplıktır. Yüksek düzeyde ölçeklenebilir olacak ve TensorFlow ve TensorFlow Extended (TFX) ile iyi çalışacak şekilde tasarlanmıştır.
TF Veri Doğrulaması şunları içerir:
- Eğitim ve test verilerinin özet istatistiklerinin ölçeklenebilir hesaplanması.
- Veri dağıtımları ve istatistikler için bir görüntüleyici ile entegrasyonun yanı sıra özellik çiftlerinin yönlü karşılaştırması ( Fasetler )
- Gerekli değerler, aralıklar ve sözlükler gibi verilerle ilgili beklentileri tanımlamak için otomatik veri şeması oluşturma
- Şemayı incelemenize yardımcı olacak bir şema görüntüleyici.
- Eksik özellikler, aralık dışı değerler veya yanlış özellik türleri gibi anormallikleri tanımlamak için anormallik tespiti bunlardan birkaçıdır.
- Hangi özelliklerde anormallik olduğunu görebilmenizi ve bunları düzeltmek için daha fazla bilgi edinebilmenizi sağlayan bir anormallik görüntüleyici.
TFDV'yi kullanma talimatları için başlangıç kılavuzuna bakın ve örnek not defterini deneyin. TFDV'de uygulanan tekniklerden bazıları SysML'19'da yayınlanan teknik bir makalede açıklanmaktadır.
PyPI'den yükleme
TFDV'yi kurmanın önerilen yolu PyPI paketini kullanmaktır:
pip install tensorflow-data-validation
Gecelik Paketler
TFDV ayrıca Google Cloud'da gecelik paketler de barındırıyor. En son gecelik paketi yüklemek için lütfen aşağıdaki komutu kullanın:
export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation
Bu, TensorFlow Metadata (TFMD) ve TFX Basic Shared Libraries (TFX-BSL) gibi TFDV'nin ana bağımlılıklarına yönelik gecelik paketleri yükleyecektir.
Bazen TFDV bu bağımlılıkların henüz yayımlanmamış en son değişikliklerini kullanır. Bu nedenle, gecelik TFDV kullanırken bu bağımlı kitaplıkların gecelik sürümlerini kullanmak daha güvenlidir. Bunu yapmak için TFX_DEPENDENCY_SELECTOR
ortam değişkenini dışa aktarın.
Docker ile derleme
Bu, Linux altında TFDV oluşturmanın önerilen yoludur ve Google'da sürekli olarak test edilmektedir.
1. Docker'ı yükleyin
Lütfen önce talimatları izleyerek docker
ve docker-compose
kurun: docker ; docker-compose .
2. TFDV deposunu klonlayın
git clone https://github.com/tensorflow/data-validation
cd data-validation
Bu talimatların TensorFlow Veri Doğrulamanın en son ana dalını yükleyeceğini unutmayın. Belirli bir dal (bir yayın dalı gibi) kurmak istiyorsanız, git clone
komutuna -b <branchname>
iletin.
3. Pip paketini oluşturun
Ardından proje kökünde aşağıdakileri çalıştırın:
sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010
burada PYTHON_VERSION
{39, 310, 311}
den biridir.
dist/
altında bir tekerlek üretilecektir.
4. pip paketini yükleyin
pip install dist/*.whl
Kaynaktan derle
1. Önkoşullar
TFDV'yi derlemek ve kullanmak için bazı önkoşulları ayarlamanız gerekir.
NumPy'yi yükleyin
Sisteminizde NumPy kurulu değilse şimdi bu talimatları izleyerek kurun.
Bazel'i yükleyin
Eğer sisteminizde Bazel kurulu değilse hemen bu talimatları takip ederek kurun.
2. TFDV deposunu klonlayın
git clone https://github.com/tensorflow/data-validation
cd data-validation
Bu talimatların TensorFlow Veri Doğrulamanın en son ana dalını yükleyeceğini unutmayın. Belirli bir dal (bir yayın dalı gibi) kurmak istiyorsanız, git clone
komutuna -b <branchname>
iletin.
3. Pip paketini oluşturun
TFDV
tekerleği Python sürümüne bağlıdır - belirli bir Python sürümü için çalışan pip paketini oluşturmak için aşağıdaki Python ikili dosyasını çalıştırın:
python setup.py bdist_wheel
Oluşturulan .whl
dosyasını dist
alt dizininde bulabilirsiniz.
4. pip paketini yükleyin
pip install dist/*.whl
Desteklenen platformlar
TFDV aşağıdaki 64 bit işletim sistemlerinde test edilmiştir:
- macOS 12.5 (Monterey) veya üzeri.
- Ubuntu 20.04 veya üzeri.
Önemli Bağımlılıklar
TensorFlow gereklidir.
Apache Beam gereklidir; verimli dağıtılmış hesaplamanın desteklenmesinin yolu budur. Apache Beam varsayılan olarak yerel modda çalışır ancak Google Cloud Dataflow ve diğer Apache Beam çalıştırıcılarını kullanarak dağıtılmış modda da çalışabilir.
Apache Arrow da gereklidir. TFDV, vektörleştirilmiş numpy işlevlerinden yararlanmak amacıyla verileri dahili olarak temsil etmek için Arrow'u kullanır.
Uyumlu sürümler
Aşağıdaki tabloda birbiriyle uyumlu paket versiyonları gösterilmektedir. Bu, test çerçevemiz tarafından belirlenir ancak test edilmemiş diğer kombinasyonlar da işe yarayabilir.
tensorflow-veri doğrulaması | apache-ışını[gcp] | çalı otu | tensor akışı | tensorflow meta verileri | tensorflow dönüşümü | tfx-bsl |
---|---|---|---|---|---|---|
GitHub ustası | 2.47.0 | 10.0.0 | gecelik (1.x/2.x) | 1.15.0 | yok | 1.15.1 |
1.15.1 | 2.47.0 | 10.0.0 | 2.15 | 1.15.0 | yok | 1.15.1 |
1.15.0 | 2.47.0 | 10.0.0 | 2.15 | 1.15.0 | yok | 1.15.0 |
1.14.0 | 2.47.0 | 10.0.0 | 2.13 | 1.14.0 | yok | 1.14.0 |
1.13.0 | 2.40.0 | 6.0.0 | 2.12 | 1.13.1 | yok | 1.13.0 |
1.12.0 | 2.40.0 | 6.0.0 | 2.11 | 1.12.0 | yok | 1.12.0 |
1.11.0 | 2.40.0 | 6.0.0 | 1.15 / 2.10 | 1.11.0 | yok | 1.11.0 |
1.10.0 | 2.40.0 | 6.0.0 | 1,15 / 2,9 | 1.10.0 | yok | 1.10.1 |
1.9.0 | 2.38.0 | 5.0.0 | 1,15 / 2,9 | 1.9.0 | yok | 1.9.0 |
1.8.0 | 2.38.0 | 5.0.0 | 1,15 / 2,8 | 1.8.0 | yok | 1.8.0 |
1.7.0 | 2.36.0 | 5.0.0 | 1,15 / 2,8 | 1.7.0 | yok | 1.7.0 |
1.6.0 | 2.35.0 | 5.0.0 | 1,15 / 2,7 | 1.6.0 | yok | 1.6.0 |
1.5.0 | 2.34.0 | 2.0.0 | 1,15 / 2,7 | 1.5.0 | yok | 1.5.0 |
1.4.0 | 2.32.0 | 2.0.0 | 1,15 / 2,6 | 1.4.0 | yok | 1.4.0 |
1.3.0 | 2.32.0 | 2.0.0 | 1,15 / 2,6 | 1.2.0 | yok | 1.3.0 |
1.2.0 | 2.31.0 | 2.0.0 | 1,15 / 2,5 | 1.2.0 | yok | 1.2.0 |
1.1.1 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.1.0 | yok | 1.1.1 |
1.1.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.1.0 | yok | 1.1.0 |
1.0.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.0.0 | yok | 1.0.0 |
0.30.0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0.30.0 | yok | 0.30.0 |
0.29.0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0.29.0 | yok | 0.29.0 |
0.28.0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0.28.0 | yok | 0.28.1 |
0.27.0 | 2.27.0 | 2.0.0 | 1,15 / 2,4 | 0.27.0 | yok | 0.27.0 |
0.26.1 | 2.28.0 | 0.17.0 | 1,15 / 2,3 | 0.26.0 | 0.26.0 | 0.26.0 |
0.26.0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0.26.0 | 0.26.0 | 0.26.0 |
0.25.0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0.25.0 | 0.25.0 | 0.25.0 |
0.24.1 | 2.24.0 | 0.17.0 | 1,15 / 2,3 | 0.24.0 | 0.24.1 | 0.24.1 |
0.24.0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0.24.0 | 0.24.0 | 0.24.0 |
0.23.1 | 2.24.0 | 0.17.0 | 1,15 / 2,3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.23.0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.22.2 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.1 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.0 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0.22.0 | 0.22.0 | 0.22.0 |
0.21.5 | 2.17.0 | 0.15.0 | 1,15 / 2,1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.4 | 2.17.0 | 0.15.0 | 1,15 / 2,1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.2 | 2.17.0 | 0.15.0 | 1,15 / 2,1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.1 | 2.17.0 | 0.15.0 | 1,15 / 2,1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.0 | 2.17.0 | 0.15.0 | 1,15 / 2,1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.15.0 | 2.16.0 | 0.14.0 | 1,15 / 2,0 | 0.15.0 | 0.15.0 | 0.15.0 |
0.14.1 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | yok |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | yok |
0.13.1 | 2.11.0 | yok | 1.13 | 0.12.1 | 0.13.0 | yok |
0.13.0 | 2.11.0 | yok | 1.13 | 0.12.1 | 0.13.0 | yok |
0.12.0 | 2.10.0 | yok | 1.12 | 0.12.1 | 0.12.0 | yok |
0.11.0 | 2.8.0 | yok | 1.11 | 0.9.0 | 0.11.0 | yok |
0.9.0 | 2.6.0 | yok | 1.9 | yok | yok | yok |
Sorular
Lütfen TF Veri Doğrulaması ile çalışmayla ilgili sorularınızı tensorflow-data-validation etiketini kullanarak Yığın Taşması'na yönlendirin.