UnicodeTranscode

classe final pública UnicodeTranscode

Transcodifique o texto de entrada de uma codificação de origem para uma codificação de destino.

A entrada é um tensor de string de qualquer formato. A saída é um tensor de string do mesmo formato contendo as strings transcodificadas. As strings de saída são sempre Unicode válidas. Se a entrada contiver posições de codificação inválidas, o atributo `errors` define a política de como lidar com elas. Se a política padrão de tratamento de erros for usada, a formatação inválida será substituída na saída pelo `replacement_char`. Se a política de erros for `ignorar`, quaisquer posições de codificação inválidas na entrada serão ignoradas e não incluídas na saída. Se definido como `strict`, qualquer formatação inválida resultará em um erro InvalidArgument.

Esta operação pode ser usada com `output_encoding = input_encoding` para impor a formatação correta para entradas, mesmo que elas já estejam na codificação desejada.

Se a entrada for prefixada por uma Marca de Ordem de Byte necessária para determinar a codificação (por exemplo, se a codificação for UTF-16 e a BOM indicar big-endian), então essa BOM será consumida e não emitida na saída. Se a codificação de entrada estiver marcada com um endianness explícito (por exemplo, UTF-16-BE), então a lista técnica será interpretada como um espaço inseparável e será preservada na saída (inclusive sempre para UTF-8).

O resultado final é que se a entrada for marcada como endianness explícita, a transcodificação será fiel a todos os pontos de código na fonte. Se não estiver marcado com um endianness explícito, o BOM não será considerado parte da string em si, mas como metadados e, portanto, não será preservado na saída.

Exemplos:

>>> tf.strings.unicode_transcode(["Olá", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtype=objeto)

Classes aninhadas

aula UnicodeTranscode.Opções Atributos opcionais para UnicodeTranscode

Constantes

Corda OP_NAME O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Métodos Públicos

Saída <TString>
asOutput ()
Retorna o identificador simbólico do tensor.
UnicodeTranscode estático
create ( Escopo , Operando < TString > entrada, String inputEncoding, String outputEncoding, Opções... opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode.
UnicodeTranscode.Options estático
erros (erros de string)
Saída <TString>
saída ()
Um tensor de string contendo texto unicode codificado usando `output_encoding`.
UnicodeTranscode.Options estático
replaceControlCharacters (booleano replaceControlCharacters)
UnicodeTranscode.Options estático
replacementChar (substituição longaChar)

Métodos herdados

Constantes

String final estática pública OP_NAME

O nome desta operação, conforme conhecido pelo mecanismo principal do TensorFlow

Valor constante: "UnicodeTranscode"

Métodos Públicos

Saída pública < TString > asOutput ()

Retorna o identificador simbólico do tensor.

As entradas para operações do TensorFlow são saídas de outra operação do TensorFlow. Este método é usado para obter um identificador simbólico que representa o cálculo da entrada.

public static UnicodeTranscode create ( Escopo escopo , Operando < TString > entrada, String inputEncoding, String outputEncoding, Opções... opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeTranscode.

Parâmetros
escopo escopo atual
entrada O texto a ser processado. Pode ter qualquer formato.
codificação de entrada Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `"UTF-16", "US ASCII", "UTF-8"`.
codificação de saída A codificação unicode a ser usada na saída. Deve ser um entre `"UTF-8", "UTF-16-BE", "UTF-32-BE"`. As codificações multibyte serão big endian.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeTranscode

Erros públicos estáticos de UnicodeTranscode.Options (erros de string)

Parâmetros
erros Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo codepoint `replacement_char`. Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

saída pública < TString > saída ()

Um tensor de string contendo texto unicode codificado usando `output_encoding`.

público estático UnicodeTranscode.Options replaceControlCharacters (booleano replaceControlCharacters)

Parâmetros
substituirControlCharacters Se deve substituir os caracteres de controle C0 (00-1F) pelo `replacement_char`. O padrão é falso.

public static UnicodeTranscode.Options replacementChar (Long replacementChar)

Parâmetros
substituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors='replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.)

Observe que para UTF-8, passar um caractere de substituição expressável em 1 byte, como ' ', preservará o alinhamento da string com a fonte, pois os bytes inválidos serão substituídos por uma substituição de 1 byte. Para UTF-16-BE e UTF-16-LE, qualquer caractere de substituição de 1 ou 2 bytes preservará o alinhamento de bytes com a origem.