UnicodeDecodeWithOffsets

publiczna klasa końcowa UnicodeDecodeWithOffsets

Dekoduje każdy ciąg znaków na wejściu w sekwencję punktów kodowych Unicode.

Punkty kodowe znaków dla wszystkich ciągów znaków są zwracane przy użyciu pojedynczego wektora „char_values”, z ciągami rozwiniętymi do znaków w kolejności od głównych wierszy. Podobnie przesunięcia bajtów początkowych znaków są zwracane przy użyciu pojedynczego wektora „char_to_byte_starts”, z ciągami znaków rozwijanymi w kolejności od głównego wiersza.

Tensor `row_splits` wskazuje, gdzie punkty kodowe i przesunięcia początkowe dla każdego ciągu wejściowego zaczynają się i kończą w obrębie tensorów `char_values` i `char_to_byte_starts`. W szczególności wartości „i” ciągu (w kolejności od głównego wiersza) są przechowywane w wycinku „[row_splits[i]:row_splits[i+1]]”. Zatem:

  • `char_values[row_splits[i]+j]` to punkt kodowy Unicode dla `j`-tego znaku w `i`-tym ciągu (w kolejności wierszy głównych).
  • `char_to_bytes_starts[row_splits[i]+j]` to przesunięcie bajtu początkowego dla `j`-tego znaku w `i`-tym ciągu (w kolejności od głównego wiersza).
  • `row_splits[i+1] - row_splits[i]` to liczba znaków w `i`-tym ciągu (w kolejności od głównego wiersza).

Klasy zagnieżdżone

klasa UnicodeDecodeWithOffsets.Options Opcjonalne atrybuty dla UnicodeDecodeWithOffsets

Stałe

Strunowy OP_NAME Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Metody publiczne

Dane wyjściowe <TInt64>
charToByteStarts ()
Tensor 1D int32 zawierający indeks bajtu w ciągu wejściowym, od którego rozpoczyna się każdy znak w `char_values`.
Dane wyjściowe <TInt32>
wartości znaków ()
Tensor 1D int32 zawierający zdekodowane punkty kodowe.
statyczny UnicodeDecodeWithOffsets <TInt64>
utwórz ( Zakres zakresu, Operand < TString > wejście, String inputEncoding, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets przy użyciu domyślnych typów wyjściowych.
statyczny <T rozszerza numer TNumber > UnicodeDecodeWithOffsets <T>
utwórz ( Zakres zakresu, Operand < TString > wejście, String inputEncoding, Class<T> Tsplits, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets.
statyczne UnicodeDecodeWithOffsets.Options
błędy (błędy ciągu)
statyczne UnicodeDecodeWithOffsets.Options
zamieńControlCharacters (Boolean zamieńControlCharacters)
statyczne UnicodeDecodeWithOffsets.Options
wymianaChar (długa wymianaChar)
Wyjście <T>
wierszSplits ()
Tensor 1D int32 zawierający podziały wierszy.

Metody dziedziczone

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Wartość stała: „UnicodeDecodeWithOffsets”

Metody publiczne

publiczne wyjście < TInt64 > charToByteStarts ()

Tensor 1D int32 zawierający indeks bajtu w ciągu wejściowym, od którego rozpoczyna się każdy znak w `char_values`.

publiczne wyjście < TInt32 > charValues ​​()

Tensor 1D int32 zawierający zdekodowane punkty kodowe.

public static UnicodeDecodeWithOffsets <TInt64> utwórz ( Zakres zakresu, Operand <TString> wejście, String inputEncoding, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets przy użyciu domyślnych typów wyjściowych.

Parametry
zakres aktualny zakres
wejście Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków.
kodowanie wejściowe Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja UnicodeDecodeWithOffsets

public static UnicodeDecodeWithOffsets <T> create ( Zakres zakresu , Operand < TString > wejście, String inputEncoding, Class<T> Tsplits, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets.

Parametry
zakres aktualny zakres
wejście Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków.
kodowanie wejściowe Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja UnicodeDecodeWithOffsets

publiczne błędy statyczne UnicodeDecodeWithOffsets.Options (błędy ciągu)

Parametry
błędy Zasady obsługi błędów w przypadku znalezienia nieprawidłowego formatowania na wejściu. Wartość „strict” spowoduje, że operacja wygeneruje błąd InvalidArgument w przypadku nieprawidłowego formatowania danych wejściowych. Wartość 'replace' (domyślna) spowoduje, że operacja zastąpi wszelkie nieprawidłowe formatowanie danych wejściowych punktem kodowym `replacement_char`. Wartość „ignore” spowoduje, że operacja pominie wszelkie nieprawidłowe formatowanie na wejściu i nie wygeneruje odpowiedniego znaku wyjściowego.

public static UnicodeDecodeWithOffsets.Options zamieńControlCharacters (Boolean zamieńControlCharacters)

Parametry
zamień znaki kontrolne Określa, czy zastąpić znaki kontrolne C0 (00-1F) znakiem `znak_zastępczy`. Wartość domyślna to fałsz.

public static UnicodeDecodeWithOffsets.Options zamianaChar (długa zamianaChar)

Parametry
wymianaChar Punkt kodowy znaku zastępczego, który ma zostać użyty zamiast nieprawidłowego formatowania danych wejściowych, gdy `błędy='zamień'`. Można zastosować dowolny ważny punkt kodowy Unicode. Wartość domyślna to domyślny znak zastępczy Unicode to 0xFFFD lub U+65533.)

publiczne dane wyjściowe <T> rowSplits ()

Tensor 1D int32 zawierający podziały wierszy.