Transformación TensorFlow

Ver en GitHub

TensorFlow Transform es una biblioteca para preprocesar datos con TensorFlow. tf.Transform es útil para datos que requieren un pase completo, como:

  • Normalice un valor de entrada por media y desviación estándar.
  • Convierta cadenas en enteros generando un vocabulario sobre todos los valores de entrada.
  • Convierta flotantes en números enteros asignándolos a depósitos en función de la distribución de datos observada.

TensorFlow tiene soporte integrado para manipulaciones en un solo ejemplo o en un lote de ejemplos. tf.Transform amplía estas capacidades para admitir pases completos sobre los datos de ejemplo.

La salida de tf.Transform se exporta como un gráfico de TensorFlow para usar para entrenamiento y servicio. Usar el mismo gráfico tanto para el entrenamiento como para el servicio puede evitar sesgos, ya que se aplican las mismas transformaciones en ambas etapas.

Para obtener una introducción a tf.Transform , consulte la sección tf.Transform de la charla de TFX Dev Summit sobre TFX ( enlace ).

Instalación

El paquete PyPI tensorflow-transform es la forma recomendada de instalar tf.Transform :

pip install tensorflow-transform

Construir TFT desde la fuente

Para compilar desde la fuente, siga los siguientes pasos: Cree un entorno virtual ejecutando los comandos

python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel

Esto construirá la rueda TFT en el directorio dist. Para instalar la rueda desde el directorio dist, ejecute los comandos

cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl

Paquetes Nocturnos

TFT también aloja paquetes nocturnos en https://pypi-nightly.tensorflow.org en Google Cloud. Para instalar el último paquete nocturno, utilice el siguiente comando:

pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform

Esto instalará los paquetes nocturnos para las principales dependencias de TFT, como TensorFlow Metadata (TFMD), TFX Basic Shared Libraries (TFX-BSL).

Dependencias notables

Se requiere TensorFlow.

Se requiere Apache Beam ; es la forma en que se admite la computación distribuida eficiente. De forma predeterminada, Apache Beam se ejecuta en modo local, pero también se puede ejecutar en modo distribuido mediante Google Cloud Dataflow y otros ejecutores de Apache Beam.

También se requiere Apache Arrow . TFT usa Arrow para representar datos internamente para hacer uso de funciones numpy vectorizadas.

Versiones compatibles

La siguiente tabla son las versiones del paquete tf.Transform que son compatibles entre sí. Esto está determinado por nuestro marco de prueba, pero también pueden funcionar otras combinaciones no probadas .

tensorflow-transform apache-beam[gcp] flecha tensorflow tensorflow-metadatos tfx-bsl
Maestro de GitHub 2.47.0 10.0.0 todas las noches (2.x) 1.14.0 1.14.0
1.14.0 2.47.0 10.0.0 2.13 1.14.0 1.14.0
1.13.0 2.41.0 6.0.0 2.12 1.13.1 1.13.0
1.12.0 2.41.0 6.0.0 2.11 1.12.0 1.12.0
1.11.0 2.41.0 6.0.0 1.15.5 / 2.10 1.11.0 1.11.0
1.10.0 2.40.0 6.0.0 1.15.5 / 2.9 1.10.0 1.10.0
1.9.0 2.38.0 5.0.0 1.15.5 / 2.9 1.9.0 1.9.0
1.8.0 2.38.0 5.0.0 1.15.5 / 2.8 1.8.0 1.8.0
1.7.0 2.36.0 5.0.0 1.15.5 / 2.8 1.7.0 1.7.0
1.6.1 2.35.0 5.0.0 1.15.5 / 2.8 1.6.0 1.6.0
1.6.0 2.35.0 5.0.0 1.15.5 / 2.7 1.6.0 1.6.0
1.5.0 2.34.0 5.0.0 1.15.2 / 2.7 1.5.0 1.5.0
1.4.1 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.4.0 2.33.0 4.0.1 1.15.2 / 2.6 1.4.0 1.4.0
1.3.0 2.31.0 2.0.0 1.15.2 / 2.6 1.2.0 1.3.0
1.2.0 2.31.0 2.0.0 1.15.2 / 2.5 1.2.0 1.2.0
1.1.1 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.1
1.1.0 2.29.0 2.0.0 1.15.2 / 2.5 1.1.0 1.1.0
1.0.0 2.29.0 2.0.0 1,15 / 2,5 1.0.0 1.0.0
0.30.0 2.28.0 2.0.0 1.15 / 2.4 0.30.0 0.30.0
0.29.0 2.28.0 2.0.0 1.15 / 2.4 0.29.0 0.29.0
0.28.0 2.28.0 2.0.0 1.15 / 2.4 0.28.0 0.28.1
0.27.0 2.27.0 2.0.0 1.15 / 2.4 0.27.0 0.27.0
0.26.0 2.25.0 0.17.0 1.15 / 2.3 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1.15 / 2.3 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1.15 / 2.3 0.24.0 0.24.1
0.24.0 2.23.0 0.17.0 1.15 / 2.3 0.24.0 0.24.0
0.23.0 2.23.0 0.17.0 1.15 / 2.3 0.23.0 0.23.0
0.22.0 2.20.0 0.16.0 1.15 / 2.2 0.22.0 0.22.0
0.21.2 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.3
0.21.0 2.17.0 0.15.0 1.15 / 2.1 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1.15 / 2.0 0.15.0 0.15.0
0.14.0 2.14.0 0.14.0 1.14 0.14.0 n / A
0.13.0 2.11.0 n / A 1.13 0.12.1 n / A
0.12.0 2.10.0 n / A 1.12 0.12.0 n / A
0.11.0 2.8.0 n / A 1.11 0.9.0 n / A
0.9.0 2.6.0 n / A 1.9 0.9.0 n / A
0.8.0 2.5.0 n / A 1.8 n / A n / A
0.6.0 2.4.0 n / A 1.6 n / A n / A
0.5.0 2.3.0 n / A 1.5 n / A n / A
0.4.0 2.2.0 n / A 1.4 n / A n / A
0.3.1 2.1.1 n / A 1.3 n / A n / A
0.3.0 2.1.1 n / A 1.3 n / A n / A
0.1.10 2.0.0 n / A 1.0 n / A n / A

Preguntas

Dirija cualquier pregunta sobre cómo trabajar con tf.Transform a Stack Overflow usando la etiqueta tensorflow-transform .