TensorFlow Veri Doğrulaması

GitHub'da görüntüle

TensorFlow Veri Doğrulaması (TFDV), makine öğrenimi verilerini keşfetmeye ve doğrulamaya yönelik bir kitaplıktır. Yüksek düzeyde ölçeklenebilir olacak ve TensorFlow ve TensorFlow Extended (TFX) ile iyi çalışacak şekilde tasarlanmıştır.

TF Veri Doğrulaması şunları içerir:

  • Eğitim ve test verilerinin özet istatistiklerinin ölçeklenebilir hesaplanması.
  • Veri dağıtımları ve istatistikler için bir görüntüleyici ile entegrasyonun yanı sıra özellik çiftlerinin yönlü karşılaştırması ( Fasetler )
  • Gerekli değerler, aralıklar ve sözlükler gibi verilerle ilgili beklentileri tanımlamak için otomatik veri şeması oluşturma
  • Şemayı incelemenize yardımcı olacak bir şema görüntüleyici.
  • Eksik özellikler, aralık dışı değerler veya yanlış özellik türleri gibi anormallikleri tanımlamak için anormallik tespiti bunlardan birkaçıdır.
  • Hangi özelliklerde anormallik olduğunu görebilmenizi ve bunları düzeltmek için daha fazla bilgi edinebilmenizi sağlayan bir anormallik görüntüleyici.

TFDV'yi kullanma talimatları için başlangıç ​​kılavuzuna bakın ve örnek not defterini deneyin. TFDV'de uygulanan tekniklerden bazıları SysML'19'da yayınlanan teknik bir makalede açıklanmaktadır.

PyPI'den yükleme

TFDV'yi kurmanın önerilen yolu PyPI paketini kullanmaktır:

pip install tensorflow-data-validation

Gecelik Paketler

TFDV ayrıca Google Cloud'da gecelik paketler de barındırıyor. En son gecelik paketi yüklemek için lütfen aşağıdaki komutu kullanın:

export TFX_DEPENDENCY_SELECTOR=NIGHTLY
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-data-validation

Bu, TensorFlow Metadata (TFMD) ve TFX Basic Shared Libraries (TFX-BSL) gibi TFDV'nin ana bağımlılıklarına yönelik gecelik paketleri yükleyecektir.

Bazen TFDV bu bağımlılıkların henüz yayımlanmamış en son değişikliklerini kullanır. Bu nedenle, gecelik TFDV kullanırken bu bağımlı kitaplıkların gecelik sürümlerini kullanmak daha güvenlidir. Bunu yapmak için TFX_DEPENDENCY_SELECTOR ortam değişkenini dışa aktarın.

Docker ile derleme

Bu, Linux altında TFDV oluşturmanın önerilen yoludur ve Google'da sürekli olarak test edilmektedir.

1. Docker'ı yükleyin

Lütfen önce talimatları izleyerek docker ve docker-compose kurun: docker ; docker-compose .

2. TFDV deposunu klonlayın

git clone https://github.com/tensorflow/data-validation
cd data-validation

Bu talimatların TensorFlow Veri Doğrulamanın en son ana dalını yükleyeceğini unutmayın. Belirli bir dal (bir yayın dalı gibi) kurmak istiyorsanız, git clone komutuna -b <branchname> iletin.

3. Pip paketini oluşturun

Ardından proje kökünde aşağıdakileri çalıştırın:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

burada PYTHON_VERSION {39, 310, 311} den biridir.

dist/ altında bir tekerlek üretilecektir.

4. pip paketini yükleyin

pip install dist/*.whl

Kaynaktan derle

1. Önkoşullar

TFDV'yi derlemek ve kullanmak için bazı önkoşulları ayarlamanız gerekir.

NumPy'yi yükleyin

Sisteminizde NumPy kurulu değilse şimdi bu talimatları izleyerek kurun.

Bazel'i yükleyin

Eğer sisteminizde Bazel kurulu değilse hemen bu talimatları takip ederek kurun.

2. TFDV deposunu klonlayın

git clone https://github.com/tensorflow/data-validation
cd data-validation

Bu talimatların TensorFlow Veri Doğrulamanın en son ana dalını yükleyeceğini unutmayın. Belirli bir dal (bir yayın dalı gibi) kurmak istiyorsanız, git clone komutuna -b <branchname> iletin.

3. Pip paketini oluşturun

TFDV tekerleği Python sürümüne bağlıdır - belirli bir Python sürümü için çalışan pip paketini oluşturmak için aşağıdaki Python ikili dosyasını çalıştırın:

python setup.py bdist_wheel

Oluşturulan .whl dosyasını dist alt dizininde bulabilirsiniz.

4. pip paketini yükleyin

pip install dist/*.whl

Desteklenen platformlar

TFDV aşağıdaki 64 bit işletim sistemlerinde test edilmiştir:

  • macOS 12.5 (Monterey) veya üzeri.
  • Ubuntu 20.04 veya üzeri.

Önemli Bağımlılıklar

TensorFlow gereklidir.

Apache Beam gereklidir; verimli dağıtılmış hesaplamanın desteklenmesinin yolu budur. Apache Beam varsayılan olarak yerel modda çalışır ancak Google Cloud Dataflow ve diğer Apache Beam çalıştırıcılarını kullanarak dağıtılmış modda da çalışabilir.

Apache Arrow da gereklidir. TFDV, vektörleştirilmiş numpy işlevlerinden yararlanmak amacıyla verileri dahili olarak temsil etmek için Arrow'u kullanır.

Uyumlu sürümler

Aşağıdaki tabloda birbiriyle uyumlu paket versiyonları gösterilmektedir. Bu, test çerçevemiz tarafından belirlenir ancak test edilmemiş diğer kombinasyonlar da işe yarayabilir.

tensorflow-veri doğrulaması apache-ışını[gcp] çalı otu tensor akışı tensorflow meta verileri tensorflow dönüşümü tfx-bsl
GitHub ustası 2.47.0 10.0.0 gecelik (1.x/2.x) 1.15.0 yok 1.15.1
1.15.1 2.47.0 10.0.0 2.15 1.15.0 yok 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 yok 1.15.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 yok 1.14.0
1.13.0 2.40.0 6.0.0 2.12 1.13.1 yok 1.13.0
1.12.0 2.40.0 6.0.0 2.11 1.12.0 yok 1.12.0
1.11.0 2.40.0 6.0.0 1.15 / 2.10 1.11.0 yok 1.11.0
1.10.0 2.40.0 6.0.0 1,15 / 2,9 1.10.0 yok 1.10.1
1.9.0 2.38.0 5.0.0 1,15 / 2,9 1.9.0 yok 1.9.0
1.8.0 2.38.0 5.0.0 1,15 / 2,8 1.8.0 yok 1.8.0
1.7.0 2.36.0 5.0.0 1,15 / 2,8 1.7.0 yok 1.7.0
1.6.0 2.35.0 5.0.0 1,15 / 2,7 1.6.0 yok 1.6.0
1.5.0 2.34.0 2.0.0 1,15 / 2,7 1.5.0 yok 1.5.0
1.4.0 2.32.0 2.0.0 1,15 / 2,6 1.4.0 yok 1.4.0
1.3.0 2.32.0 2.0.0 1,15 / 2,6 1.2.0 yok 1.3.0
1.2.0 2.31.0 2.0.0 1,15 / 2,5 1.2.0 yok 1.2.0
1.1.1 2.29.0 2.0.0 1,15 / 2,5 1.1.0 yok 1.1.1
1.1.0 2.29.0 2.0.0 1,15 / 2,5 1.1.0 yok 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 yok 1.0.0
0.30.0 2.28.0 2.0.0 1,15 / 2,4 0.30.0 yok 0.30.0
0.29.0 2.28.0 2.0.0 1,15 / 2,4 0.29.0 yok 0.29.0
0.28.0 2.28.0 2.0.0 1,15 / 2,4 0.28.0 yok 0.28.1
0.27.0 2.27.0 2.0.0 1,15 / 2,4 0.27.0 yok 0.27.0
0.26.1 2.28.0 0.17.0 1,15 / 2,3 0.26.0 0.26.0 0.26.0
0.26.0 2.25.0 0.17.0 1,15 / 2,3 0.26.0 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1,15 / 2,3 0.25.0 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1,15 / 2,3 0.24.0 0.24.1 0.24.1
0.24.0 2.23.0 0.17.0 1,15 / 2,3 0.24.0 0.24.0 0.24.0
0.23.1 2.24.0 0.17.0 1,15 / 2,3 0.23.0 0.23.0 0.23.0
0.23.0 2.23.0 0.17.0 1,15 / 2,3 0.23.0 0.23.0 0.23.0
0.22.2 2.20.0 0.16.0 1,15 / 2,2 0.22.0 0.22.0 0.22.1
0.22.1 2.20.0 0.16.0 1,15 / 2,2 0.22.0 0.22.0 0.22.1
0.22.0 2.20.0 0.16.0 1,15 / 2,2 0.22.0 0.22.0 0.22.0
0.21.5 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.1 0.21.3
0.21.4 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.1 0.21.3
0.21.2 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.0 0.21.0
0.21.1 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.0 0.21.0
0.21.0 2.17.0 0.15.0 1,15 / 2,1 0.21.0 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1,15 / 2,0 0.15.0 0.15.0 0.15.0
0.14.1 2.14.0 0.14.0 1.14 0.14.0 0.14.0 yok
0.14.0 2.14.0 0.14.0 1.14 0.14.0 0.14.0 yok
0.13.1 2.11.0 yok 1.13 0.12.1 0.13.0 yok
0.13.0 2.11.0 yok 1.13 0.12.1 0.13.0 yok
0.12.0 2.10.0 yok 1.12 0.12.1 0.12.0 yok
0.11.0 2.8.0 yok 1.11 0.9.0 0.11.0 yok
0.9.0 2.6.0 yok 1.9 yok yok yok

Sorular

Lütfen TF Veri Doğrulaması ile çalışmayla ilgili sorularınızı tensorflow-data-validation etiketini kullanarak Yığın Taşması'na yönlendirin.