Décode chaque chaîne dans « input » en une séquence de points de code Unicode.
Les points de code de caractères pour toutes les chaînes sont renvoyés à l'aide d'un seul vecteur « char_values », avec des chaînes développées en caractères dans l'ordre des lignes principales. De même, les décalages d'octets de début de caractère sont renvoyés à l'aide d'un seul vecteur `char_to_byte_starts`, avec des chaînes développées dans l'ordre des lignes principales.
Le tenseur `row_splits` indique où commencent et se terminent les points de code et les décalages de début de chaque chaîne d'entrée dans les tenseurs `char_values` et `char_to_byte_starts`. En particulier, les valeurs de la `i`ème chaîne (dans l’ordre des lignes principales) sont stockées dans la tranche `[row_splits[i]:row_splits[i+1]]`. Ainsi:
- `char_values[row_splits[i]+j]` est le point de code Unicode pour le `j`ième caractère dans la `i`ième chaîne (dans l'ordre des lignes principales).
- `char_to_bytes_starts[row_splits[i]+j]` est le décalage d'octet de début pour le `j`ème caractère dans la `i`ème chaîne (dans l'ordre des lignes principales).
- `row_splits[i+1] - row_splits[i]` est le nombre de caractères dans la `i`ème chaîne (dans l'ordre des lignes principales).
Classes imbriquées
classe | UnicodeDecodeWithOffsets.Options | Attributs facultatifs pour UnicodeDecodeWithOffsets |
Constantes
Chaîne | OP_NAME | Le nom de cette opération, tel que connu par le moteur principal TensorFlow |
Méthodes publiques
Sortie < TInt64 > | charToByteStarts () Un Tensor 1D int32 contenant l'index d'octets dans la chaîne d'entrée où commence chaque caractère de `char_values`. |
Sortie < TInt32 > | charValues () Un Tensor 1D int32 contenant les points de code décodés. |
statique UnicodeDecodeWithOffsets < TInt64 > | créer ( Scope scope, Operand < TString > input, String inputEncoding, Options... options) Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets à l'aide des types de sortie par défaut. |
statique <T étend TNumber > UnicodeDecodeWithOffsets <T> | créer ( Scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... options) Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets. |
statique UnicodeDecodeWithOffsets.Options | erreurs (erreurs de chaîne) |
statique UnicodeDecodeWithOffsets.Options | replaceControlCharacters (booléen replaceControlCharacters) |
statique UnicodeDecodeWithOffsets.Options | remplacementChar (Long remplacementChar) |
Sortie <T> | lignesSplits () Un tenseur 1D int32 contenant les divisions de lignes. |
Méthodes héritées
Constantes
chaîne finale statique publique OP_NAME
Le nom de cette opération, tel que connu par le moteur principal TensorFlow
Méthodes publiques
Sortie publique < TInt64 > charToByteStarts ()
Un Tensor 1D int32 contenant l'index d'octets dans la chaîne d'entrée où commence chaque caractère de `char_values`.
public static UnicodeDecodeWithOffsets < TInt64 > create ( Scope scope, Operand < TString > input, String inputEncoding, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets à l'aide des types de sortie par défaut.
Paramètres
portée | portée actuelle |
---|---|
saisir | Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères. |
inputEncoding | Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`. |
choix | porte des valeurs d'attributs facultatifs |
Retour
- une nouvelle instance de UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create ( Scope scope, Operand < TString > input, String inputEncoding, Class<T> Tsplits, Options... options)
Méthode d'usine pour créer une classe encapsulant une nouvelle opération UnicodeDecodeWithOffsets.
Paramètres
portée | portée actuelle |
---|---|
saisir | Le texte à décoder. Peut avoir n'importe quelle forme. Notez que la sortie est aplatie en un vecteur de valeurs de caractères. |
inputEncoding | Encodage du texte des chaînes d'entrée. Il s'agit de l'un des codages pris en charge par les convertisseurs algorithmiques ICU ucnv. Exemples : `"UTF-16", "US ASCII", "UTF-8"`. |
choix | porte des valeurs d'attributs facultatifs |
Retour
- une nouvelle instance de UnicodeDecodeWithOffsets
erreurs publiques statiques UnicodeDecodeWithOffsets.Options (erreurs de chaîne)
Paramètres
les erreurs | Politique de gestion des erreurs lorsqu’un formatage non valide est trouvé dans l’entrée. La valeur de « strict » entraînera la production d’une erreur InvalidArgument sur tout formatage d’entrée non valide. Une valeur de « replace » (la valeur par défaut) entraînera le remplacement par l'opération de tout formatage non valide dans l'entrée par le point de code « replacement_char ». Une valeur de « ignorer » entraînera l'opération à ignorer tout formatage non valide dans l'entrée et à ne produire aucun caractère de sortie correspondant. |
---|
public statique UnicodeDecodeWithOffsets.Options replaceControlCharacters (Boolean replaceControlCharacters)
Paramètres
replaceControlCharacters | S'il faut remplacer les caractères de contrôle C0 (00-1F) par le `replacement_char`. La valeur par défaut est fausse. |
---|
public statique UnicodeDecodeWithOffsets.Options remplacementChar (Long remplacementChar)
Paramètres
remplacementChar | Le point de code du caractère de remplacement à utiliser à la place de tout formatage non valide dans l'entrée lorsque `errors='replace'`. Tout point de code Unicode valide peut être utilisé. La valeur par défaut est que le caractère de remplacement Unicode par défaut est 0xFFFD ou U+65533.) |
---|