Giải mã từng chuỗi trong `input` thành một chuỗi các điểm mã Unicode.
Điểm mã ký tự cho tất cả các chuỗi được trả về bằng một vectơ `char_values`, với các chuỗi được mở rộng thành các ký tự theo thứ tự hàng lớn.
Tenxơ `row_splits` cho biết vị trí các điểm mã cho mỗi chuỗi đầu vào bắt đầu và kết thúc trong tenxơ `char_values`. Cụ thể, các giá trị cho chuỗi thứ `i` (theo thứ tự hàng lớn) được lưu trữ trong slice `[row_splits[i]:row_splits[i+1]]`. Như vậy:
- `char_values[row_splits[i]+j]` là điểm mã Unicode cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
- `row_splits[i+1] - row_splits[i]` là số ký tự trong chuỗi thứ `i` (theo thứ tự hàng lớn).
Các lớp lồng nhau
lớp học | UnicodeDecode.Options | Thuộc tính tùy chọn cho UnicodeDecode |
Hằng số
Sợi dây | OP_NAME | Tên của op này, được biết đến bởi công cụ lõi TensorFlow |
Phương pháp công khai
Đầu ra < TInt32 > | giá trị char () Tensor 1D int32 chứa các điểm mã được giải mã. |
tĩnh <T mở rộng TNumber > UnicodeDecode <T> | tạo ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Lớp <T> Tsplits, Tùy chọn... ) Phương thức gốc để tạo một lớp bao bọc một thao tác UnicodeDecode mới. |
Mã Unicode tĩnh < TInt64 > | |
UnicodeDecode.Options tĩnh | lỗi (Lỗi chuỗi) |
UnicodeDecode.Options tĩnh | thay thếControlCharacters (Boolean thay thếControlCharacters) |
UnicodeDecode.Options tĩnh | thay thếChar (Char thay thế dài) |
Đầu ra <T> | rowSplits () Một tenxơ int32 1D chứa các hàng được chia tách. |
Phương pháp kế thừa
Hằng số
Chuỗi cuối cùng tĩnh công khai OP_NAME
Tên của op này, được biết đến bởi công cụ lõi TensorFlow
Phương pháp công khai
public static UnicodeDecode <T> tạo ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, String inputEncoding, Class<T> Tsplits, Tùy chọn... tùy chọn)
Phương thức gốc để tạo một lớp bao bọc một thao tác UnicodeDecode mới.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
đầu vào | Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char. |
mã hóa đầu vào | Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`. |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của UnicodeDecode
UnicodeDecode tĩnh công khai < TInt64 > tạo ( Phạm vi phạm vi , đầu vào Toán hạng < TString >, Mã hóa đầu vào chuỗi, Tùy chọn... )
Phương thức xuất xưởng để tạo một lớp bao bọc thao tác UnicodeDecode mới bằng cách sử dụng các loại đầu ra mặc định.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
đầu vào | Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char. |
mã hóa đầu vào | Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`. |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của UnicodeDecode
lỗi UnicodeDecode.Options tĩnh công khai (Lỗi chuỗi)
Thông số
lỗi | Chính sách xử lý lỗi khi tìm thấy định dạng không hợp lệ trong đầu vào. Giá trị 'nghiêm ngặt' sẽ khiến thao tác tạo ra lỗi InvalidArgument trên bất kỳ định dạng đầu vào không hợp lệ nào. Giá trị 'thay thế' (mặc định) sẽ khiến thao tác thay thế mọi định dạng không hợp lệ trong đầu vào bằng điểm mã `replacement_char`. Giá trị 'bỏ qua' sẽ khiến thao tác bỏ qua mọi định dạng không hợp lệ trong đầu vào và không tạo ra ký tự đầu ra tương ứng. |
---|
UnicodeDecode.Options tĩnh công khai thay thếControlCharacters (Boolean thay thếControlCharacters)
Thông số
ký tự điều khiển thay thế | Có thay thế các ký tự điều khiển C0 (00-1F) bằng `replacement_char` hay không. Mặc định là sai. |
---|
UnicodeDecode.Options thay thế tĩnh công khaiChar (Char thay thế dài)
Thông số
thay thếChar | Điểm mã ký tự thay thế sẽ được sử dụng thay cho bất kỳ định dạng không hợp lệ nào trong đầu vào khi `errors='replace'`. Bất kỳ điểm mã unicode hợp lệ nào cũng có thể được sử dụng. Giá trị mặc định là ký tự thay thế unicode mặc định là 0xFFFD hoặc U+65533.) |
---|