Декодирует каждую строку в `input` в последовательность кодовых точек Unicode.
Кодовые точки символов для всех строк возвращаются с использованием одного вектора `char_values`, при этом строки расширяются до символов в порядке следования строк.
Тензор row_splits указывает, где начинаются и заканчиваются кодовые точки для каждой входной строки внутри тензора char_values. В частности, значения для `i`-й строки (в порядке следования строк) сохраняются в срезе `[row_splits[i]:row_splits[i+1]]`. Таким образом:
- `char_values[row_splits[i]+j]` — это код Unicode для `j`-го символа в `i`-й строке (в порядке следования строк).
- `row_splits[i+1] - row_splits[i]` — это количество символов в `i`-й строке (в порядке возрастания строк).
Вложенные классы
сорт | UnicodeDecode.Параметры | Дополнительные атрибуты для UnicodeDecode |
Константы
Нить | OP_NAME | Название этой операции, известное основному движку TensorFlow. |
Публичные методы
Вывод < TInt32 > | символьные значения () Тензор 1D int32, содержащий декодированные кодовые точки. |
статический <T расширяет TNumber > UnicodeDecode <T> | create ( Область области, Операнд < TString > input, String inputEncoding, Class<T> Tsplits, Options... options) Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode. |
статический UnicodeDecode <TInt64> | |
статический UnicodeDecode.Options | ошибки (строковые ошибки) |
статический UnicodeDecode.Options | replaceControlCharacters (логическое значение replaceControlCharacters) |
статический UnicodeDecode.Options | replaceChar (длинная заменаChar) |
Выход <Т> | строка Сплит () Одномерный тензор int32, содержащий разбиения строк. |
Унаследованные методы
Константы
общедоступная статическая финальная строка OP_NAME
Название этой операции, известное основному движку TensorFlow.
Публичные методы
public static UnicodeDecode <T> create (область области действия , операнд < TString > input, String inputEncoding, Class<T> Tsplit, параметры... параметры)
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode.
Параметры
объем | текущий объем |
---|---|
вход | Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений. |
входноекодирование | Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8". |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр UnicodeDecode
public static UnicodeDecode <TInt64> create (область действия , операнд < TString > input, String inputEncoding, параметры... параметры)
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode, с использованием типов вывода по умолчанию.
Параметры
объем | текущий объем |
---|---|
вход | Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений. |
входноекодирование | Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8". |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр UnicodeDecode
общедоступные статические ошибки UnicodeDecode.Options (ошибки строки)
Параметры
ошибки | Политика обработки ошибок, когда во входных данных обнаружено недопустимое форматирование. Значение 'strict' приведет к тому, что операция выдаст ошибку InvalidArgument при любом недопустимом форматировании входных данных. Значение «replace» (по умолчанию) приведет к тому, что операция заменит любое недопустимое форматирование во входных данных кодовой точкой «replacement_char». Значение «игнорировать» приведет к тому, что операция пропустит любое недопустимое форматирование во входных данных и не выдаст соответствующий выходной символ. |
---|
общедоступный статический UnicodeDecode.Options replaceControlCharacters (логическое значение replaceControlCharacters)
Параметры
заменитьControlCharacters | Заменять ли управляющие символы C0 (00-1F) на replace_char. По умолчанию — ложь. |
---|
общедоступный статический UnicodeDecode.Options replaceChar (Long replaceChar)
Параметры
заменаChar | Код символа замены, который будет использоваться вместо любого недопустимого форматирования во входных данных, когда `errors='replace'`. Можно использовать любой действительный код Unicode. Значение по умолчанию — символ замены Юникода по умолчанию — 0xFFFD или U+65533.) |
---|