Transcodifique o texto de entrada de uma codificação de origem para uma codificação de destino.
A entrada é um tensor de string de qualquer formato. A saída é um tensor de string da mesma forma que contém as strings transcodificadas. As strings de saída são sempre Unicode válidas. Se a entrada contém posições de codificação inválidas, o atributo `errors` define a política de como lidar com eles. Se a política de tratamento de erros padrão for usada, a formatação inválida será substituída na saída por `replacement_char`. Se a política de erros for `ignorar`, quaisquer posições de codificação inválidas na entrada serão ignoradas e não serão incluídas na saída. Se for definido como `estrito`, qualquer formatação inválida resultará em um erro InvalidArgument.
Esta operação pode ser usada com `output_encoding = input_encoding` para impor a formatação correta para as entradas, mesmo se já estiverem na codificação desejada.
Se a entrada for prefixada por uma Marca de Ordem de Byte necessária para determinar a codificação (por exemplo, se a codificação for UTF-16 e o BOM indicar big-endian), então esse BOM será consumido e não emitido na saída. Se a codificação de entrada for marcada com um endianness explícito (por exemplo, UTF-16-BE), então o BOM é interpretado como um espaço sem quebra e é preservado na saída (incluindo sempre para UTF-8).
O resultado final é que, se a entrada for marcada como um endianness explícito, a transcodificação será fiel a todos os pontos de código na fonte. Se não estiver marcado com um endianness explícito, o BOM não será considerado parte da própria string, mas como metadados e, portanto, não será preservado na saída.
Exemplos:
>>> tf.strings.unicode_transcode (["Hello", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE")
Classes aninhadas
classe | UnicodeTranscode.Options | Atributos opcionais para UnicodeTranscode |
Constantes
Fragmento | OP_NAME | O nome desta operação, conforme conhecido pelo motor principal TensorFlow |
Métodos Públicos
Output < TString > | asOutput () Retorna o identificador simbólico do tensor. |
estática UnicodeTranscode | criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, String OutputEncoding, Options ... Opções) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode. |
estáticos UnicodeTranscode.Options | erros (erros String) |
Output < TString > | saída () Um tensor de string contendo texto unicode codificado usando `output_encoding`. |
estáticos UnicodeTranscode.Options | replaceControlCharacters (replaceControlCharacters booleanas) |
estáticos UnicodeTranscode.Options | replacementChar (Long replacementChar) |
Métodos herdados
Constantes
nome_op final String public static
O nome desta operação, conforme conhecido pelo motor principal TensorFlow
Métodos Públicos
pública Output < TString > asOutput ()
Retorna o identificador simbólico do tensor.
As entradas para as operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.
public static UnicodeTranscode criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, String OutputEncoding, Options ... Opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser processado. Pode ter qualquer formato. |
inputEncoding | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`. |
outputEncoding | A codificação Unicode a ser usada na saída. Deve ser um de `" UTF-8 "," UTF-16-BE "," UTF-32-BE "`. As codificações multibyte serão big-endian. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeTranscode
public static UnicodeTranscode.Options erros (erros String)
Parâmetros
erros | Política de tratamento de erros quando houver formatação inválida encontrada na entrada. O valor de 'estrito' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'substituir' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo ponto de código `substituição_char`. Um valor de 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente. |
---|
pública Output < TString > saída ()
Um tensor de string contendo texto unicode codificado usando `output_encoding`.
public static UnicodeTranscode.Options replaceControlCharacters (replaceControlCharacters booleanos)
Parâmetros
substituirControlCharacters | Se deve substituir os caracteres de controle C0 (00-1F) com o `replacement_char`. O padrão é falso. |
---|
public static UnicodeTranscode.Options replacementChar (Long replacementChar)
Parâmetros
SubstituiçãoChar | O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors = 'replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é o caractere de substituição Unicode padrão é 0xFFFD ou U + 65533.) Observe que, para UTF-8, passar um caractere de substituição expressável em 1 byte, como '', preservará o alinhamento da string com a origem, pois os bytes inválidos serão substituídos por uma substituição de 1 byte. Para UTF-16-BE e UTF-16-LE, qualquer caractere de substituição de 1 ou 2 bytes preservará o alinhamento dos bytes com a fonte. |
---|