TensorFlow Transform là thư viện để xử lý trước dữ liệu với TensorFlow. tf.Transform
rất hữu ích cho dữ liệu yêu cầu vượt qua đầy đủ, chẳng hạn như:
- Chuẩn hóa giá trị đầu vào bằng giá trị trung bình và độ lệch chuẩn.
- Chuyển đổi chuỗi thành số nguyên bằng cách tạo từ vựng trên tất cả các giá trị đầu vào.
- Chuyển đổi số float thành số nguyên bằng cách gán chúng cho các nhóm dựa trên phân phối dữ liệu được quan sát.
TensorFlow có hỗ trợ tích hợp cho các thao tác trên một ví dụ hoặc một loạt ví dụ. tf.Transform
mở rộng các khả năng này để hỗ trợ truyền toàn bộ dữ liệu mẫu.
Đầu ra của tf.Transform
được xuất dưới dạng biểu đồ TensorFlow để sử dụng cho việc đào tạo và phục vụ. Việc sử dụng cùng một biểu đồ cho cả quá trình huấn luyện và phân phát có thể tránh được hiện tượng lệch do các phép biến đổi giống nhau được áp dụng trong cả hai giai đoạn.
Để biết phần giới thiệu về tf.Transform
, hãy xem phần tf.Transform
trong buổi nói chuyện tại Hội nghị thượng đỉnh TFX Dev về TFX ( liên kết ).
Cài đặt
Gói PyPI tensorflow-transform
là cách được khuyến nghị để cài đặt tf.Transform
:
pip install tensorflow-transform
Xây dựng TFT từ nguồn
Để xây dựng từ nguồn, hãy làm theo các bước sau: Tạo môi trường ảo bằng cách chạy các lệnh
python3 -m venv <virtualenv_name>
source <virtualenv_name>/bin/activate
pip3 install setuptools wheel
git clone https://github.com/tensorflow/transform.git
cd transform
python3 setup.py bdist_wheel
Điều này sẽ xây dựng bánh xe TFT trong thư mục dist. Để cài đặt bánh xe từ thư mục dist, hãy chạy lệnh
cd dist
pip3 install tensorflow_transform-<version>-py3-none-any.whl
Gói hàng đêm
TFT cũng lưu trữ các gói hàng đêm tại https://pypi-nightly.tensorflow.org trên Google Cloud. Để cài đặt gói hàng đêm mới nhất, vui lòng sử dụng lệnh sau:
pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple tensorflow-transform
Điều này sẽ cài đặt các gói hàng đêm cho các phần phụ thuộc chính của TFT như Siêu dữ liệu TensorFlow (TFMD), Thư viện chia sẻ cơ bản TFX (TFX-BSL).
Sự phụ thuộc đáng chú ý
TensorFlow là bắt buộc.
Cần có chùm tia Apache ; đó là cách hỗ trợ tính toán phân tán hiệu quả. Theo mặc định, Apache Beam chạy ở chế độ cục bộ nhưng cũng có thể chạy ở chế độ phân tán bằng cách sử dụng Google Cloud Dataflow và các trình chạy Apache Beam khác.
Mũi tên Apache cũng được yêu cầu. TFT sử dụng Mũi tên để biểu diễn dữ liệu nội bộ nhằm tận dụng các hàm gọn gàng được vector hóa.
Phiên bản tương thích
Bảng sau đây là các phiên bản gói tf.Transform
tương thích với nhau. Điều này được xác định bởi khung thử nghiệm của chúng tôi, nhưng các kết hợp chưa được kiểm tra khác cũng có thể hoạt động.
biến đổi tenorflow | chùm tia Apache [gcp] | pyarrow | dòng chảy căng thẳng | siêu dữ liệu tenorflow | tfx-bsl |
---|---|---|---|---|---|
Bậc thầy GitHub | 2.47.0 | 10.0.0 | hàng đêm (2.x) | 1.15.0 | 1.15.1 |
1.15.0 | 2.47.0 | 10.0.0 | 2,15 | 1.15.0 | 1.15.1 |
1.14.0 | 2.47.0 | 10.0.0 | 2.13 | 1.14.0 | 1.14.0 |
1.13.0 | 2.41.0 | 6.0.0 | 2.12 | 1.13.1 | 1.13.0 |
1.12.0 | 2.41.0 | 6.0.0 | 2.11 | 1.12.0 | 1.12.0 |
1.11.0 | 2.41.0 | 6.0.0 | 1.15.5 / 2.10 | 1.11.0 | 1.11.0 |
1.10.0 | 2.40.0 | 6.0.0 | 1.15.5 / 2.9 | 1.10.0 | 1.10.0 |
1.9.0 | 2.38.0 | 5.0.0 | 1.15.5 / 2.9 | 1.9.0 | 1.9.0 |
1.8.0 | 2.38.0 | 5.0.0 | 1.15.5 / 2.8 | 1.8.0 | 1.8.0 |
1.7.0 | 2.36.0 | 5.0.0 | 1.15.5 / 2.8 | 1.7.0 | 1.7.0 |
1.6.1 | 2.35.0 | 5.0.0 | 1.15.5 / 2.8 | 1.6.0 | 1.6.0 |
1.6.0 | 2.35.0 | 5.0.0 | 1,15,5 / 2,7 | 1.6.0 | 1.6.0 |
1.5.0 | 2.34.0 | 5.0.0 | 1.15.2 / 2.7 | 1.5.0 | 1.5.0 |
1.4.1 | 2.33.0 | 4.0.1 | 1.15.2 / 2.6 | 1.4.0 | 1.4.0 |
1.4.0 | 2.33.0 | 4.0.1 | 1.15.2 / 2.6 | 1.4.0 | 1.4.0 |
1.3.0 | 2.31.0 | 2.0.0 | 1.15.2 / 2.6 | 1.2.0 | 1.3.0 |
1.2.0 | 2.31.0 | 2.0.0 | 1.15.2 / 2.5 | 1.2.0 | 1.2.0 |
1.1.1 | 2.29.0 | 2.0.0 | 1.15.2 / 2.5 | 1.1.0 | 1.1.1 |
1.1.0 | 2.29.0 | 2.0.0 | 1.15.2 / 2.5 | 1.1.0 | 1.1.0 |
1.0.0 | 2.29.0 | 2.0.0 | 1,15 / 2,5 | 1.0.0 | 1.0.0 |
0,30,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,30,0 | 0,30,0 |
0,29,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,29,0 | 0,29,0 |
0,28,0 | 2.28.0 | 2.0.0 | 1,15 / 2,4 | 0,28,0 | 0,28,1 |
0,27,0 | 2.27.0 | 2.0.0 | 1,15 / 2,4 | 0,27,0 | 0,27,0 |
0,26,0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0,26,0 | 0,26,0 |
0,25,0 | 2.25.0 | 0.17.0 | 1,15 / 2,3 | 0,25,0 | 0,25,0 |
0,24,1 | 2.24.0 | 0.17.0 | 1,15 / 2,3 | 0,24,0 | 0,24,1 |
0,24,0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0,24,0 | 0,24,0 |
0,23,0 | 2.23.0 | 0.17.0 | 1,15 / 2,3 | 0,23,0 | 0,23,0 |
0,22,0 | 2.20.0 | 0.16.0 | 1,15 / 2,2 | 0,22,0 | 0,22,0 |
0,21,2 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,3 |
0,21,0 | 2.17.0 | 0,15,0 | 1,15 / 2,1 | 0,21,0 | 0,21,0 |
0,15,0 | 2.16.0 | 0.14.0 | 1,15 / 2,0 | 0,15,0 | 0,15,0 |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | không có |
0.13.0 | 2.11.0 | không có | 1.13 | 0.12.1 | không có |
0.12.0 | 2.10.0 | không có | 1.12 | 0.12.0 | không có |
0.11.0 | 2.8.0 | không có | 1.11 | 0.9.0 | không có |
0.9.0 | 2.6.0 | không có | 1.9 | 0.9.0 | không có |
0.8.0 | 2.5.0 | không có | 1.8 | không có | không có |
0.6.0 | 2.4.0 | không có | 1.6 | không có | không có |
0.5.0 | 2.3.0 | không có | 1,5 | không có | không có |
0.4.0 | 2.2.0 | không có | 1.4 | không có | không có |
0.3.1 | 2.1.1 | không có | 1.3 | không có | không có |
0.3.0 | 2.1.1 | không có | 1.3 | không có | không có |
0.1.10 | 2.0.0 | không có | 1.0 | không có | không có |
Câu hỏi
Vui lòng gửi bất kỳ câu hỏi nào về cách làm việc với tf.Transform
sang Stack Overflow bằng cách sử dụng thẻ tensorflow-transform .