UnicodeTranscode

clase final pública UnicodeTranscode

Transcodifique el texto de entrada de una codificación de origen a una codificación de destino.

La entrada es un tensor de cuerda de cualquier forma. La salida es un tensor de cuerda de la misma forma que contiene las cadenas transcodificadas. Las cadenas de salida siempre son Unicode válidas. Si la entrada contiene posiciones de codificación no válidas, el atributo "errors" establece la política sobre cómo tratarlas. Si se utiliza la política de manejo de errores predeterminada, el formato no válido se sustituirá en la salida por `replacement_char`. Si la política de errores es "ignorar", cualquier posición de codificación no válida en la entrada se omite y no se incluye en la salida. Si se establece en "estricto", cualquier formato no válido dará como resultado un error de Argumento no válido.

Esta operación se puede utilizar con `output_encoding = input_encoding` para aplicar el formato correcto a las entradas incluso si ya están en la codificación deseada.

Si la entrada tiene como prefijo una marca de orden de bytes necesaria para determinar la codificación (por ejemplo, si la codificación es UTF-16 y la BOM indica big-endian), entonces esa BOM se consumirá y no se emitirá en la salida. Si la codificación de entrada está marcada con un endianness explícito (por ejemplo, UTF-16-BE), entonces la lista de materiales se interpreta como un espacio sin separación y se conserva en la salida (incluso siempre para UTF-8).

El resultado final es que si la entrada se marca como endianidad explícita, la transcodificación es fiel a todos los puntos de código en la fuente. Si no está marcado con un endianness explícito, la lista de materiales no se considera parte de la cadena en sí, sino metadatos y, por lo tanto, no se conserva en la salida.

Ejemplos:

>>> tf.strings.unicode_transcode(["Hola", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8"). numpy() matriz([b'A', b'B' , b'C'], dtipo=objeto)

Clases anidadas

clase UnicodeTranscode.Opciones Atributos opcionales para UnicodeTranscode

Constantes

Cadena OP_NOMBRE El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Métodos públicos

Salida <TString>
como salida ()
Devuelve el identificador simbólico del tensor.
UnicodeTranscode estático
crear (ámbito de alcance , entrada de operando <TString> , codificación de entrada de cadena, codificación de salida de cadena, opciones... opciones)
Método de fábrica para crear una clase que envuelve una nueva operación UnicodeTranscode.
UnicodeTranscode.Options estático
errores (errores de cadena)
Salida <TString>
producción ()
Un tensor de cadena que contiene texto Unicode codificado usando `output_encoding`.
UnicodeTranscode.Options estático
reemplazarControlCharacters (reemplazarControlCharacters booleano)
UnicodeTranscode.Options estático
replacementChar (reemplazo largo Char)

Métodos heredados

Constantes

Cadena final estática pública OP_NAME

El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Valor constante: "UnicodeTranscode"

Métodos públicos

Salida pública <TString> asOutput ()

Devuelve el identificador simbólico del tensor.

Las entradas a las operaciones de TensorFlow son salidas de otra operación de TensorFlow. Este método se utiliza para obtener un identificador simbólico que representa el cálculo de la entrada.

creación pública estática de UnicodeTranscode (alcance del alcance , entrada del operando <TString> , codificación de entrada de cadena, codificación de salida de cadena, opciones... opciones)

Método de fábrica para crear una clase que envuelve una nueva operación UnicodeTranscode.

Parámetros
alcance alcance actual
aporte El texto a procesar. Puede tener cualquier forma.
entradaCodificación Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ICU ucnv. Ejemplos: `"UTF-16", "US ASCII", "UTF-8"`.
salidaCodificación La codificación Unicode que se utilizará en la salida. Debe ser uno de `"UTF-8", "UTF-16-BE", "UTF-32-BE"`. Las codificaciones multibyte serán big-endian.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeTranscode

Errores públicos estáticos UnicodeTranscode.Options (errores de cadena)

Parámetros
errores Política de manejo de errores cuando se encuentra un formato no válido en la entrada. El valor de 'estricto' hará que la operación produzca un error InvalidArgument en cualquier formato de entrada no válido. Un valor de 'reemplazar' (el valor predeterminado) hará que la operación reemplace cualquier formato no válido en la entrada con el punto de código `replacement_char`. Un valor de 'ignorar' hará que la operación omita cualquier formato no válido en la entrada y no produzca ningún carácter de salida correspondiente.

Salida pública <TString> salida ()

Un tensor de cadena que contiene texto Unicode codificado usando `output_encoding`.

UnicodeTranscode.Options estático público reemplazarControlCharacters (reemplazarBooleanoControlCharacters)

Parámetros
reemplazarControlCharacters Si se deben reemplazar los caracteres de control C0 (00-1F) con `replacement_char`. El valor predeterminado es falso.

UnicodeTranscode.Options estático público replacementChar (Reemplazo largo Char)

Parámetros
reemplazoChar El punto de código del carácter de reemplazo que se utilizará en lugar de cualquier formato no válido en la entrada cuando `errors='replace'`. Se puede utilizar cualquier punto de código Unicode válido. El valor predeterminado es que el carácter de reemplazo Unicode predeterminado es 0xFFFD o U+65533).

Tenga en cuenta que para UTF-8, pasar un carácter de reemplazo expresable en 1 byte, como ' ', preservará la alineación de la cadena con el origen, ya que los bytes no válidos se reemplazarán con un reemplazo de 1 byte. Para UTF-16-BE y UTF-16-LE, cualquier carácter de reemplazo de 1 o 2 bytes preservará la alineación de bytes con el origen.