fluxo tensor:: ops:: UnicodeTranscode

#include <string_ops.h>

Transcodifique o texto de entrada de uma codificação de origem para uma codificação de destino.

Resumo

A entrada é um tensor de string de qualquer formato. A saída é um tensor de string do mesmo formato contendo as strings transcodificadas. As strings de saída são sempre Unicode válidas. Se a entrada contiver posições de codificação inválidas, o atributo errors definirá a política de como lidar com elas. Se a política padrão de tratamento de erros for usada, a formatação inválida será substituída na saída pelo replacement_char . Se a política de erros for ignore , quaisquer posições de codificação inválidas na entrada serão ignoradas e não incluídas na saída. Se definido como strict , qualquer formatação inválida resultará em um erro InvalidArgument.

Esta operação pode ser usada com output_encoding = input_encoding para impor a formatação correta das entradas, mesmo que elas já estejam na codificação desejada.

Se a entrada for prefixada por uma Marca de Ordem de Byte necessária para determinar a codificação (por exemplo, se a codificação for UTF-16 e a BOM indicar big-endian), então essa BOM será consumida e não emitida na saída. Se a codificação de entrada estiver marcada com um endianness explícito (por exemplo, UTF-16-BE), então a lista técnica será interpretada como um espaço inseparável e será preservada na saída (inclusive sempre para UTF-8).

O resultado final é que se a entrada for marcada como endianness explícita, a transcodificação será fiel a todos os pontos de código na fonte. Se não estiver marcado com um endianness explícito, o BOM não será considerado parte da string em si, mas como metadados e, portanto, não será preservado na saída.

Exemplos:

tf.strings.unicode_transcode(["Olá", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B', b' C'], dtype=objeto)

Argumentos:

  • escopo: um objeto Escopo
  • input: O texto a ser processado. Pode ter qualquer formato.
  • input_encoding: Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: a codificação Unicode a ser usada na saída. Deve ser um entre "UTF-8", "UTF-16-BE", "UTF-32-BE" . As codificações multibyte serão big endian.

Atributos opcionais (veja Attrs ):

  • erros: Política de tratamento de erros quando há formatação inválida encontrada na entrada. O valor de 'strict' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor 'replace' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo ponto de código replacement_char . Um valor 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.
  • replacement_char: o ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando errors='replace' . Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é que o caractere de substituição unicode padrão é 0xFFFD ou U+65533.)

Observe que para UTF-8, passar um caractere de substituição expressável em 1 byte, como ' ', preservará o alinhamento da string com a fonte, pois os bytes inválidos serão substituídos por uma substituição de 1 byte. Para UTF-16-BE e UTF-16-LE, qualquer caractere de substituição de 1 ou 2 bytes preservará o alinhamento de bytes com a origem.

  • replace_control_characters: se deve substituir os caracteres de controle C0 (00-1F) pelo replacement_char . O padrão é falso.

Retorna:

  • Output : um tensor de string contendo texto unicode codificado usando output_encoding .

Construtores e Destruidores

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

Atributos públicos

operation
output

Funções públicas

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

Funções estáticas públicas

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

Estruturas

tensorflow:: ops:: UnicodeTranscode:: Attrs

Configuradores de atributos opcionais para UnicodeTranscode .

Atributos públicos

operação

Operation operation

saída

::tensorflow::Output output

Funções públicas

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

::tensorflow::Node * node() const 

operador::tensorflow::Input

 operator::tensorflow::Input() const 

operador::tensorflow::Saída

 operator::tensorflow::Output() const 

Funções estáticas públicas

Erros

Attrs Errors(
  StringPiece x
)

SubstituirControlCharacters

Attrs ReplaceControlCharacters(
  bool x
)

Substituição Char

Attrs ReplacementChar(
  int64 x
)