Decodifica cada string em `input` em uma sequência de pontos de código Unicode.
Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal. Da mesma forma, os deslocamentos de byte de início de caractere são retornados usando um único vetor `char_to_byte_starts`, com strings expandidas na ordem da linha principal.
O tensor `row_splits` indica onde os pontos de código e deslocamentos iniciais para cada string de entrada começam e terminam dentro dos tensores` char_values` e `char_to_byte_starts`. Em particular, os valores para a `i`ésima string (na ordem da linha principal) são armazenados na fatia` [row_splits [i]: row_splits [i + 1]] `. Assim:
- `char_values [row_splits [i] + j]` é o ponto de código Unicode para o `j`ésimo caractere na` i`ésima string (na ordem da linha maior).
- `char_to_bytes_starts [row_splits [i] + j]` é o deslocamento de byte inicial para o `j`ésimo caractere na` i`ésima string (na ordem da linha maior).
- `row_splits [i + 1] - row_splits [i]` é o número de caracteres na `i`ésima string (na ordem da linha maior).
Classes aninhadas
classe | UnicodeDecodeWithOffsets.Options | Atributos opcionais para UnicodeDecodeWithOffsets |
Constantes
Fragmento | OP_NAME | O nome desta operação, conforme conhecido pelo motor principal TensorFlow |
Métodos Públicos
Output < TInt64 > | charToByteStarts () Um tensor int32 1D contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa. |
Output < TInt32 > | charValues () Um tensor int32 1D contendo os pontos de código decodificados. |
estáticos UnicodeDecodeWithOffsets < TInt64 > | criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, Options ... Opções) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão. |
estática <T estende TNumber > UnicodeDecodeWithOffsets <T> | criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, Class <T> Tsplits, Options ... Opções) Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets. |
estáticos UnicodeDecodeWithOffsets.Options | erros (erros String) |
estáticos UnicodeDecodeWithOffsets.Options | replaceControlCharacters (replaceControlCharacters booleanas) |
estáticos UnicodeDecodeWithOffsets.Options | replacementChar (Long replacementChar) |
Output <T> | rowSplits () Um tensor int32 1D contendo as divisões de linha. |
Métodos herdados
Constantes
nome_op final String public static
O nome desta operação, conforme conhecido pelo motor principal TensorFlow
Métodos Públicos
pública Output < TInt64 > charToByteStarts ()
Um tensor int32 1D contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.
pública Output < TInt32 > charValues ()
Um tensor int32 1D contendo os pontos de código decodificados.
public static UnicodeDecodeWithOffsets < TInt64 > create ( Scope escopo, Operando < TString > entrada, String InputEncoding, Options ... Opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
inputEncoding | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create ( Scope escopo, Operando < TString > entrada, String InputEncoding, Class <T> Tsplits, Options ... Opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.
Parâmetros
alcance | escopo atual |
---|---|
entrada | O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char. |
inputEncoding | Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`. |
opções | carrega valores de atributos opcionais |
Devoluções
- uma nova instância de UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets.Options erros (erros String)
Parâmetros
erros | Política de tratamento de erros quando houver formatação inválida encontrada na entrada. O valor de 'estrito' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'substituir' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo ponto de código `substituição_char`. Um valor de 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente. |
---|
public static UnicodeDecodeWithOffsets.Options replaceControlCharacters (replaceControlCharacters booleanos)
Parâmetros
substituirControlCharacters | Se deve substituir os caracteres de controle C0 (00-1F) com o `replacement_char`. O padrão é falso. |
---|
public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)
Parâmetros
SubstituiçãoChar | O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors = 'replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é o caractere de substituição Unicode padrão é 0xFFFD ou U + 65533.) |
---|