TensorFlow Transform es una biblioteca para preprocesar datos con TensorFlow. tf.Transform
es útil para datos que requieren un pase completo, como:
- Normalice un valor de entrada por media y desviación estándar.
- Convierta cadenas en enteros generando un vocabulario sobre todos los valores de entrada.
- Convierta flotantes en números enteros asignándolos a depósitos en función de la distribución de datos observada.
TensorFlow tiene soporte integrado para manipulaciones en un solo ejemplo o en un lote de ejemplos. tf.Transform
amplía estas capacidades para admitir pases completos sobre los datos de ejemplo.
La salida de tf.Transform
se exporta como un gráfico de TensorFlow para usar para entrenamiento y servicio. Usar el mismo gráfico tanto para el entrenamiento como para el servicio puede evitar sesgos, ya que se aplican las mismas transformaciones en ambas etapas.
Para obtener una introducción a tf.Transform
, consulte la sección tf.Transform
de la charla de TFX Dev Summit sobre TFX ( enlace ).
Instalación
El paquete PyPI tensorflow-transform
es la forma recomendada de instalar tf.Transform
:
pip install tensorflow-transform
Construir TFT desde la fuente
Para compilar desde la fuente, siga los siguientes pasos: Cree un entorno virtual ejecutando los comandos
python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel
Esto construirá la rueda TFT en el directorio dist. Para instalar la rueda desde el directorio dist, ejecute los comandos
cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl
Paquetes Nocturnos
TFT también aloja paquetes nocturnos en https://pypi-nightly.tensorflow.org en Google Cloud. Para instalar el último paquete nocturno, utilice el siguiente comando:
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform
Esto instalará los paquetes nocturnos para las principales dependencias de TFT, como TensorFlow Metadata (TFMD), TFX Basic Shared Libraries (TFX-BSL).
Dependencias notables
Se requiere TensorFlow.
Se requiere Apache Beam ; es la forma en que se admite la computación distribuida eficiente. De forma predeterminada, Apache Beam se ejecuta en modo local, pero también se puede ejecutar en modo distribuido mediante Google Cloud Dataflow y otros ejecutores de Apache Beam.
También se requiere Apache Arrow . TFT usa Arrow para representar datos internamente para hacer uso de funciones numpy vectorizadas.
Versiones compatibles
La siguiente tabla son las versiones del paquete tf.Transform
que son compatibles entre sí. Esto está determinado por nuestro marco de prueba, pero también pueden funcionar otras combinaciones no probadas .
tensorflow-transform | apache-beam[gcp] | flecha | tensorflow | tensorflow-metadatos | tfx-bsl |
---|---|---|---|---|---|
Maestro de GitHub | 2.47.0 | 10.0.0 | todas las noches (2.x) | 1.14.0 | 1.14.0 |
1.14.0 | 2.47.0 | 10.0.0 | 2.13 | 1.14.0 | 1.14.0 |
1.13.0 | 2.41.0 | 6.0.0 | 2.12 | 1.13.1 | 1.13.0 |
1.12.0 | 2.41.0 | 6.0.0 | 2.11 | 1.12.0 | 1.12.0 |
1.11.0 | 2.41.0 | 6.0.0 | 1.15.5 / 2.10 | 1.11.0 | 1.11.0 |
1.10.0 | 2.40.0 | 6.0.0 | 1.15.5 / 2.9 | 1.10.0 | 1.10.0 |
1.9.0 | 2.38.0 | 5.0.0 | 1.15.5 / 2.9 | 1.9.0 | 1.9.0 |
1.8.0 | 2.38.0 | 5.0.0 | 1.15.5 / 2.8 | 1.8.0 | 1.8.0 |
1.7.0 | 2.36.0 | 5.0.0 | 1.15.5 / 2.8 | 1.7.0 | 1.7.0 |
1.6.1 | 2.35.0 | 5.0.0 | 1.15.5 / 2.8 | 1.6.0 | 1.6.0 |
1.6.0 | 2.35.0 | 5.0.0 | 1.15.5 / 2.7 | 1.6.0 | 1.6.0 |
1.5.0 | 2.34.0 | 5.0.0 | 1.15.2 / 2.7 | 1.5.0 | 1.5.0 |
1.4.1 | 2.33.0 | 4.0.1 | 1.15.2 / 2.6 | 1.4.0 | 1.4.0 |
1.4.0 | 2.33.0 | 4.0.1 | 1.15.2 / 2.6 | 1.4.0 | 1.4.0 |
1.3.0 | 2.31.0 | 2.0.0 | 1.15.2 / 2.6 | 1.2.0 | 1.3.0 |
1.2.0 | 2.31.0 | 2.0.0 | 1.15.2 / 2.5 | 1.2.0 | 1.2.0 |
1.1.1 | 2.29.0 | 2.0.0 | 1.15.2 / 2.5 | 1.1.0 | 1.1.1 |
1.1.0 | 2.29.0 | 2.0.0 | 1.15.2 / 2.5 | 1.1.0 | 1.1.0 |
1.0.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.0.0 | 1.0.0 |
0.30.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.30.0 | 0.30.0 |
0.29.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.29.0 | 0.29.0 |
0.28.0 | 2.28.0 | 2.0.0 | 1.15 / 2.4 | 0.28.0 | 0.28.1 |
0.27.0 | 2.27.0 | 2.0.0 | 1.15 / 2.4 | 0.27.0 | 0.27.0 |
0.26.0 | 2.25.0 | 0.17.0 | 1.15 / 2.3 | 0.26.0 | 0.26.0 |
0.25.0 | 2.25.0 | 0.17.0 | 1.15 / 2.3 | 0.25.0 | 0.25.0 |
0.24.1 | 2.24.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.1 |
0.24.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.0 |
0.23.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.23.0 | 0.23.0 |
0.22.0 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 |
0.21.2 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.3 |
0.21.0 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 |
0.15.0 | 2.16.0 | 0.14.0 | 1.15 / 2.0 | 0.15.0 | 0.15.0 |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | n / A |
0.13.0 | 2.11.0 | n / A | 1.13 | 0.12.1 | n / A |
0.12.0 | 2.10.0 | n / A | 1.12 | 0.12.0 | n / A |
0.11.0 | 2.8.0 | n / A | 1.11 | 0.9.0 | n / A |
0.9.0 | 2.6.0 | n / A | 1.9 | 0.9.0 | n / A |
0.8.0 | 2.5.0 | n / A | 1.8 | n / A | n / A |
0.6.0 | 2.4.0 | n / A | 1.6 | n / A | n / A |
0.5.0 | 2.3.0 | n / A | 1.5 | n / A | n / A |
0.4.0 | 2.2.0 | n / A | 1.4 | n / A | n / A |
0.3.1 | 2.1.1 | n / A | 1.3 | n / A | n / A |
0.3.0 | 2.1.1 | n / A | 1.3 | n / A | n / A |
0.1.10 | 2.0.0 | n / A | 1.0 | n / A | n / A |
Preguntas
Dirija cualquier pregunta sobre cómo trabajar con tf.Transform
a Stack Overflow usando la etiqueta tensorflow-transform .