Преобразование TensorFlow, Преобразование TensorFlow

Посмотреть на GitHub

TensorFlow Transform — это библиотека для предварительной обработки данных с помощью TensorFlow. tf.Transform полезен для данных, требующих полного прохода, например:

  • Нормализуйте входное значение по среднему и стандартному отклонению.
  • Преобразуйте строки в целые числа, создав словарь для всех входных значений.
  • Преобразуйте числа с плавающей запятой в целые числа, назначив их сегментам на основе наблюдаемого распределения данных.

TensorFlow имеет встроенную поддержку манипуляций с одним примером или группой примеров. tf.Transform расширяет эти возможности для поддержки полного прохода по данным примера.

Выходные данные tf.Transform экспортируются в виде графика TensorFlow для использования для обучения и обслуживания. Использование одного и того же графика для обучения и обслуживания может предотвратить перекос, поскольку на обоих этапах применяются одни и те же преобразования.

Введение в tf.Transform см. в разделе tf.Transform доклада TFX Dev Summit о TFX ( ссылка ).

Установка

Пакет PyPI tensorflow-transform — рекомендуемый способ установки tf.Transform :

pip install tensorflow-transform

Сборка TFT из исходного кода

Для сборки из исходного кода выполните следующие действия: Создайте виртуальную среду, выполнив команды.

python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel

Это создаст колесо TFT в каталоге dist. Чтобы установить колесо из каталога dist, выполните команды

cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl

Ночные пакеты

TFT также размещает ночные пакеты по адресу https://pypi-nightly.tensorflow.org в Google Cloud. Чтобы установить последний ночной пакет, используйте следующую команду:

pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform

При этом будут установлены ночные пакеты для основных зависимостей TFT, таких как метаданные TensorFlow (TFMD), базовые общие библиотеки TFX (TFX-BSL).

Известные зависимости

Требуется TensorFlow.

Требуется Apache Beam ; это способ поддержки эффективных распределенных вычислений. По умолчанию Apache Beam работает в локальном режиме, но также может работать в распределенном режиме с использованием Google Cloud Dataflow и других средств запуска Apache Beam.

Также требуется Apache Arrow . TFT использует Arrow для внутреннего представления данных, чтобы использовать векторизованные функции numpy.

Совместимые версии

В следующей таблице представлены версии пакета tf.Transform , совместимые друг с другом. Это определяется нашей системой тестирования, но могут работать и другие непроверенные комбинации.

тензорное преобразование потока Apache-луч [gcp] пиарроу тензорный поток тензорный поток-метаданные tfx-bsl
Мастер GitHub 2.47.0 10.0.0 ночью (2.x) 1.15.0 1.15.1
1.15.0 2.47.0 10.0.0 2.15 1.15.0 1.15.1
1.14.0 2.47.0 10.0.0 2.13 1.14.0 1.14.0
1.13.0 2.41.0 6.0.0 2.12 1.13.1 1.13.0
1.12.0 2.41.0 6.0.0 2.11 1.12.0 1.12.0
1.11.0 2.41.0 6.0.0 1.15.5/2.10 1.11.0 1.11.0
1.10.0 2.40.0 6.0.0 1.15.5/2.9 1.10.0 1.10.0
1.9.0 2.38.0 5.0.0 1.15.5/2.9 1.9.0 1.9.0
1.8.0 2.38.0 5.0.0 1.15.5/2.8 1.8.0 1.8.0
1.7.0 2.36.0 5.0.0 1.15.5/2.8 1.7.0 1.7.0
1.6.1 2.35.0 5.0.0 1.15.5/2.8 1.6.0 1.6.0
1.6.0 2.35.0 5.0.0 1.15.5/2.7 1.6.0 1.6.0
1.5.0 2.34.0 5.0.0 1.15.2/2.7 1.5.0 1.5.0
1.4.1 2.33.0 4.0.1 1.15.2/2.6 1.4.0 1.4.0
1.4.0 2.33.0 4.0.1 1.15.2/2.6 1.4.0 1.4.0
1.3.0 2.31.0 2.0.0 1.15.2/2.6 1.2.0 1.3.0
1.2.0 2.31.0 2.0.0 1.15.2/2,5 1.2.0 1.2.0
1.1.1 2.29.0 2.0.0 1.15.2/2,5 1.1.0 1.1.1
1.1.0 2.29.0 2.0.0 1.15.2/2,5 1.1.0 1.1.0
1.0.0 2.29.0 2.0.0 1,15/2,5 1.0.0 1.0.0
0.30.0 2.28.0 2.0.0 1,15/2,4 0.30.0 0.30.0
0.29.0 2.28.0 2.0.0 1,15/2,4 0.29.0 0.29.0
0.28.0 2.28.0 2.0.0 1,15/2,4 0.28.0 0.28.1
0.27.0 2.27.0 2.0.0 1,15/2,4 0.27.0 0.27.0
0.26.0 2.25.0 0.17.0 1,15/2,3 0.26.0 0.26.0
0.25.0 2.25.0 0.17.0 1,15/2,3 0.25.0 0.25.0
0.24.1 2.24.0 0.17.0 1,15/2,3 0.24.0 0.24.1
0.24.0 2.23.0 0.17.0 1,15/2,3 0.24.0 0.24.0
0.23.0 2.23.0 0.17.0 1,15/2,3 0.23.0 0.23.0
0.22.0 2.20.0 0.16.0 1,15/2,2 0.22.0 0.22.0
0.21.2 2.17.0 0.15.0 1,15/2,1 0.21.0 0.21.3
0.21.0 2.17.0 0.15.0 1,15/2,1 0.21.0 0.21.0
0.15.0 2.16.0 0.14.0 1,15/2,0 0.15.0 0.15.0
0.14.0 2.14.0 0.14.0 1.14 0.14.0 н/д
0.13.0 2.11.0 н/д 1.13 0.12.1 н/д
0.12.0 2.10.0 н/д 1.12 0.12.0 н/д
0.11.0 2.8.0 н/д 1.11 0.9.0 н/д
0.9.0 2.6.0 н/д 1,9 0.9.0 н/д
0.8.0 2.5.0 н/д 1,8 н/д н/д
0.6.0 2.4.0 н/д 1,6 н/д н/д
0.5.0 2.3.0 н/д 1,5 н/д н/д
0.4.0 2.2.0 н/д 1,4 н/д н/д
0.3.1 2.1.1 н/д 1.3 н/д н/д
0.3.0 2.1.1 н/д 1.3 н/д н/д
0.1.10 2.0.0 н/д 1.0 н/д н/д

Вопросы

Любые вопросы о работе с tf.Transform направляйте в Stack Overflow, используя тег tensorflow-transform .