Dekoduje każdy ciąg znaków na wejściu w sekwencję punktów kodowych Unicode.
Punkty kodowe znaków dla wszystkich ciągów znaków są zwracane przy użyciu pojedynczego wektora „char_values”, z ciągami rozwiniętymi do znaków w kolejności od głównych wierszy. Podobnie przesunięcia bajtów początkowych znaków są zwracane przy użyciu pojedynczego wektora „char_to_byte_starts”, z ciągami znaków rozwijanymi w kolejności od głównego wiersza.
Tensor `row_splits` wskazuje, gdzie punkty kodowe i przesunięcia początkowe dla każdego ciągu wejściowego zaczynają się i kończą w obrębie tensorów `char_values` i `char_to_byte_starts`. W szczególności wartości „i” ciągu (w kolejności od głównego wiersza) są przechowywane w wycinku „[row_splits[i]:row_splits[i+1]]”. Zatem:
- `char_values[row_splits[i]+j]` to punkt kodowy Unicode dla `j`-tego znaku w `i`-tym ciągu (w kolejności wierszy głównych).
- `char_to_bytes_starts[row_splits[i]+j]` to przesunięcie bajtu początkowego dla `j`-tego znaku w `i`-tym ciągu (w kolejności od głównego wiersza).
- `row_splits[i+1] - row_splits[i]` to liczba znaków w `i`-tym ciągu (w kolejności od głównego wiersza).
Klasy zagnieżdżone
klasa | UnicodeDecodeWithOffsets.Options | Opcjonalne atrybuty dla UnicodeDecodeWithOffsets |
Stałe
Strunowy | OP_NAME | Nazwa tej operacji znana silnikowi rdzenia TensorFlow |
Metody publiczne
Dane wyjściowe <TInt64> | charToByteStarts () Tensor 1D int32 zawierający indeks bajtu w ciągu wejściowym, od którego rozpoczyna się każdy znak w `char_values`. |
Dane wyjściowe <TInt32> | wartości znaków () Tensor 1D int32 zawierający zdekodowane punkty kodowe. |
statyczny UnicodeDecodeWithOffsets <TInt64> | |
statyczny <T rozszerza numer TNumber > UnicodeDecodeWithOffsets <T> | |
statyczne UnicodeDecodeWithOffsets.Options | błędy (błędy ciągu) |
statyczne UnicodeDecodeWithOffsets.Options | zamieńControlCharacters (Boolean zamieńControlCharacters) |
statyczne UnicodeDecodeWithOffsets.Options | wymianaChar (długa wymianaChar) |
Wyjście <T> | wierszSplits () Tensor 1D int32 zawierający podziały wierszy. |
Metody dziedziczone
Stałe
publiczny statyczny końcowy ciąg znaków OP_NAME
Nazwa tej operacji znana silnikowi rdzenia TensorFlow
Metody publiczne
publiczne wyjście < TInt64 > charToByteStarts ()
Tensor 1D int32 zawierający indeks bajtu w ciągu wejściowym, od którego rozpoczyna się każdy znak w `char_values`.
public static UnicodeDecodeWithOffsets <TInt64> utwórz ( Zakres zakresu, Operand <TString> wejście, String inputEncoding, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets przy użyciu domyślnych typów wyjściowych.
Parametry
zakres | aktualny zakres |
---|---|
wejście | Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków. |
kodowanie wejściowe | Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`. |
opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja UnicodeDecodeWithOffsets
public static UnicodeDecodeWithOffsets <T> create ( Zakres zakresu , Operand < TString > wejście, String inputEncoding, Class<T> Tsplits, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację UnicodeDecodeWithOffsets.
Parametry
zakres | aktualny zakres |
---|---|
wejście | Tekst do rozszyfrowania. Może mieć dowolny kształt. Należy zauważyć, że dane wyjściowe są spłaszczane do wektora wartości znaków. |
kodowanie wejściowe | Kodowanie tekstu ciągów wejściowych. Jest to dowolne z kodowań obsługiwanych przez konwertery algorytmiczne ICU ucnv. Przykłady: `„UTF-16”, „US ASCII”, „UTF-8”`. |
opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja UnicodeDecodeWithOffsets
publiczne błędy statyczne UnicodeDecodeWithOffsets.Options (błędy ciągu)
Parametry
błędy | Zasady obsługi błędów w przypadku znalezienia nieprawidłowego formatowania na wejściu. Wartość „strict” spowoduje, że operacja wygeneruje błąd InvalidArgument w przypadku nieprawidłowego formatowania danych wejściowych. Wartość 'replace' (domyślna) spowoduje, że operacja zastąpi wszelkie nieprawidłowe formatowanie danych wejściowych punktem kodowym `replacement_char`. Wartość „ignore” spowoduje, że operacja pominie wszelkie nieprawidłowe formatowanie na wejściu i nie wygeneruje odpowiedniego znaku wyjściowego. |
---|
public static UnicodeDecodeWithOffsets.Options zamieńControlCharacters (Boolean zamieńControlCharacters)
Parametry
zamień znaki kontrolne | Określa, czy zastąpić znaki kontrolne C0 (00-1F) znakiem `znak_zastępczy`. Wartość domyślna to fałsz. |
---|
public static UnicodeDecodeWithOffsets.Options zamianaChar (długa zamianaChar)
Parametry
wymianaChar | Punkt kodowy znaku zastępczego, który ma zostać użyty zamiast nieprawidłowego formatowania danych wejściowych, gdy `błędy='zamień'`. Można zastosować dowolny ważny punkt kodowy Unicode. Wartość domyślna to domyślny znak zastępczy Unicode to 0xFFFD lub U+65533.) |
---|