UnicodeDecodeWithOffsets

classe finale publique UnicodeDecodeWithOffsets

Décode chaque chaîne dans « input » en une séquence de points de code Unicode.

Les points de code de caractères pour toutes les chaînes sont renvoyés à l'aide d'un seul vecteur « char_values », avec des chaînes développées en caractères dans l'ordre des lignes principales. De même, les décalages d'octets de début de caractère sont renvoyés à l'aide d'un seul vecteur `char_to_byte_starts`, avec des chaînes développées dans l'ordre des lignes principales.

Le tenseur `row_splits` indique où commencent et se terminent les points de code et les décalages de début de chaque chaîne d'entrée dans les tenseurs `char_values` et `char_to_byte_starts`. En particulier, les valeurs de la `i`ème chaîne (dans l’ordre des lignes principales) sont stockées dans la tranche `[row_splits[i]:row_splits[i+1]]`. Ainsi:

  • `char_values[row_splits[i]+j]` est le point de code Unicode pour le `j`ième caractère dans la `i`ième chaîne (dans l'ordre des lignes principales).
  • `char_to_bytes_starts[row_splits[i]+j]` est le décalage d'octet de début pour le `j`ème caractère dans la `i`ème chaîne (dans l'ordre des lignes principales).
  • `row_splits[i+1] - row_splits[i]` est le nombre de caractères dans la `i`ème chaîne (dans l'ordre des lignes principales).

Classes imbriquées

classe UnicodeDecodeWithOffsets.Options Attributs facultatifs pour UnicodeDecodeWithOffsets

Constantes

Chaîne OP_NAME Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Méthodes publiques

Sortie < TInt64 >
charToByteStarts ()
Un Tensor 1D int32 contenant l'index d'octets dans la chaîne d'entrée où commence chaque caractère de `char_values`.
Sortie < TInt32 >
charValues ​​()
Un Tensor 1D int32 contenant les points de code décodés.
statique UnicodeDecodeWithOffsets < TInt64 >
créer ( Scope scope, Operand < TString > input, String inputEncoding, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets à l'aide des types de sortie par défaut.
statique <T étend TNumber > UnicodeDecodeWithOffsets <T>
créer ( Scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets.
statique UnicodeDecodeWithOffsets.Options
erreurs (erreurs de chaîne)
statique UnicodeDecodeWithOffsets.Options
replaceControlCharacters (booléen replaceControlCharacters)
statique UnicodeDecodeWithOffsets.Options
remplacementChar (Long remplacementChar)
Sortie <T>
lignesSplits ()
Un tenseur 1D int32 contenant les divisions de lignes.

Méthodes héritées

Constantes

chaîne finale statique publique OP_NAME

Le nom de cette opération, tel que connu par le moteur principal TensorFlow

Valeur constante : "UnicodeDecodeWithOffsets"

Méthodes publiques

Sortie publique < TInt64 > charToByteStarts ()

Un Tensor 1D int32 contenant l'index d'octets dans la chaîne d'entrée où commence chaque caractère de `char_values`.

Sortie publique < TInt32 > charValues ​​()

Un Tensor 1D int32 contenant les points de code décodés.

public static UnicodeDecodeWithOffsets < TInt64 > create ( Scope scope, Operand < TString > input, String inputEncoding, Options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets à l'aide des types de sortie par défaut.

Paramètres
portée portée actuelle
saisir Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères.
inputEncoding Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance de UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... options)

Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets.

Paramètres
portée portée actuelle
saisir Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères.
inputEncoding Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`.
choix porte des valeurs d'attributs facultatifs
Retour
  • une nouvelle instance de UnicodeDecodeWithOffsets

erreurs publiques statiques UnicodeDecodeWithOffsets.Options (erreurs de chaîne)

Paramètres
les erreurs Politique de gestion des erreurs lorsqu’un formatage non valide est trouvé dans l’entrée. La valeur de « strict » entraînera la production d’une erreur InvalidArgument sur tout formatage d’entrée non valide. Une valeur de « replace » (la valeur par défaut) entraînera le remplacement par l'opération de tout formatage non valide dans l'entrée par le point de code « replacement_char ». Une valeur de « ignorer » entraînera l'opération à ignorer tout formatage non valide dans l'entrée et à ne produire aucun caractère de sortie correspondant.

public statique UnicodeDecodeWithOffsets.Options replaceControlCharacters (Boolean replaceControlCharacters)

Paramètres
replaceControlCharacters S'il faut remplacer les caractères de contrôle C0 (00-1F) par le `replacement_char`. La valeur par défaut est fausse.

public statique UnicodeDecodeWithOffsets.Options remplacementChar (Long remplacementChar)

Paramètres
remplacementChar Le point de code du caractère de remplacement à utiliser à la place de tout formatage non valide dans l'entrée lorsque `errors='replace'`. Tout point de code Unicode valide peut être utilisé. La valeur par défaut est que le caractère de remplacement Unicode par défaut est 0xFFFD ou U+65533.)

sortie publique <T> rowSplits ()

Un tenseur 1D int32 contenant les divisions de lignes.