UnicodeDecodeWithOffsets

UnicodeDecodeWithOffsets classe final públicas

Decodifica cada string em `input` em uma sequência de pontos de código Unicode.

Os pontos de código de caracteres para todas as strings são retornados usando um único vetor `char_values`, com strings expandidas para caracteres na ordem da linha principal. Da mesma forma, os deslocamentos de byte de início de caractere são retornados usando um único vetor `char_to_byte_starts`, com strings expandidas na ordem da linha principal.

O tensor `row_splits` indica onde os pontos de código e deslocamentos iniciais para cada string de entrada começam e terminam dentro dos tensores` char_values` e `char_to_byte_starts`. Em particular, os valores para a `i`ésima string (na ordem da linha principal) são armazenados na fatia` [row_splits [i]: row_splits [i + 1]] `. Assim:

  • `char_values ​​[row_splits [i] + j]` é o ponto de código Unicode para o `j`ésimo caractere na` i`ésima string (na ordem da linha maior).
  • `char_to_bytes_starts [row_splits [i] + j]` é o deslocamento de byte inicial para o `j`ésimo caractere na` i`ésima string (na ordem da linha maior).
  • `row_splits [i + 1] - row_splits [i]` é o número de caracteres na `i`ésima string (na ordem da linha maior).

Classes aninhadas

classe UnicodeDecodeWithOffsets.Options Atributos opcionais para UnicodeDecodeWithOffsets

Constantes

Fragmento OP_NAME O nome desta operação, conforme conhecido pelo motor principal TensorFlow

Métodos Públicos

Output < TInt64 >
charToByteStarts ()
Um tensor int32 1D contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.
Output < TInt32 >
charValues ()
Um tensor int32 1D contendo os pontos de código decodificados.
estáticos UnicodeDecodeWithOffsets < TInt64 >
criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, Options ... Opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.
estática <T estende TNumber > UnicodeDecodeWithOffsets <T>
criar ( Scope escopo, Operando < TString > entrada, String InputEncoding, Class <T> Tsplits, Options ... Opções)
Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.
estáticos UnicodeDecodeWithOffsets.Options
erros (erros String)
estáticos UnicodeDecodeWithOffsets.Options
replaceControlCharacters (replaceControlCharacters booleanas)
estáticos UnicodeDecodeWithOffsets.Options
replacementChar (Long replacementChar)
Output <T>
rowSplits ()
Um tensor int32 1D contendo as divisões de linha.

Métodos herdados

Constantes

nome_op final String public static

O nome desta operação, conforme conhecido pelo motor principal TensorFlow

Valor constante: "UnicodeDecodeWithOffsets"

Métodos Públicos

pública Output < TInt64 > charToByteStarts ()

Um tensor int32 1D contendo o índice de bytes na string de entrada onde cada caractere em `char_values` começa.

pública Output < TInt32 > charValues ()

Um tensor int32 1D contendo os pontos de código decodificados.

public static UnicodeDecodeWithOffsets < TInt64 > create ( Scope escopo, Operando < TString > entrada, String InputEncoding, Options ... Opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets usando tipos de saída padrão.

Parâmetros
alcance escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char.
inputEncoding Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Scope escopo, Operando < TString > entrada, String InputEncoding, Class <T> Tsplits, Options ... Opções)

Método de fábrica para criar uma classe que envolve uma nova operação UnicodeDecodeWithOffsets.

Parâmetros
alcance escopo atual
entrada O texto a ser decodificado. Pode ter qualquer formato. Observe que a saída é achatada para um vetor de valores char.
inputEncoding Codificação de texto das strings de entrada. Esta é qualquer uma das codificações suportadas pelos conversores algorítmicos ICU ucnv. Exemplos: `" UTF-16 "," US ASCII "," UTF-8 "`.
opções carrega valores de atributos opcionais
Devoluções
  • uma nova instância de UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets.Options erros (erros String)

Parâmetros
erros Política de tratamento de erros quando houver formatação inválida encontrada na entrada. O valor de 'estrito' fará com que a operação produza um erro InvalidArgument em qualquer formatação de entrada inválida. Um valor de 'substituir' (o padrão) fará com que a operação substitua qualquer formatação inválida na entrada pelo ponto de código `substituição_char`. Um valor de 'ignorar' fará com que a operação ignore qualquer formatação inválida na entrada e não produza nenhum caractere de saída correspondente.

public static UnicodeDecodeWithOffsets.Options replaceControlCharacters (replaceControlCharacters booleanos)

Parâmetros
substituirControlCharacters Se deve substituir os caracteres de controle C0 (00-1F) com o `replacement_char`. O padrão é falso.

public static UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

Parâmetros
SubstituiçãoChar O ponto de código do caractere de substituição a ser usado no lugar de qualquer formatação inválida na entrada quando `errors = 'replace'`. Qualquer ponto de código Unicode válido pode ser usado. O valor padrão é o caractere de substituição Unicode padrão é 0xFFFD ou U + 65533.)

pública Output <T> rowSplits ()

Um tensor int32 1D contendo as divisões de linha.