UnicodeDecodeWithOffsets

공개 최종 클래스 UnicodeDecodeWithOffsets

'input'의 각 문자열을 일련의 유니코드 코드 포인트로 디코딩합니다.

모든 문자열의 문자 코드 포인트는 단일 벡터 `char_values`를 사용하여 반환되며, 문자열은 행 우선 순서로 문자로 확장됩니다. 마찬가지로 문자 시작 바이트 오프셋은 단일 벡터 'char_to_byte_starts'를 사용하여 반환되며 문자열은 행 우선 순서로 확장됩니다.

`row_splits` 텐서는 `char_values` 및 `char_to_byte_starts` 텐서 내에서 각 입력 문자열의 코드 포인트와 시작 오프셋이 시작하고 끝나는 위치를 나타냅니다. 특히 `i`번째 문자열의 값(행 우선 순서)은 `[row_splits[i]:row_splits[i+1]]` 슬라이스에 저장됩니다. 따라서:

  • `char_values[row_splits[i]+j]`는 `i`번째 문자열(행 우선 순서)에서 `j`번째 문자에 대한 유니코드 코드 포인트입니다.
  • `char_to_bytes_starts[row_splits[i]+j]`는 `i`번째 문자열(행 우선 순서)에서 `j`번째 문자에 대한 시작 바이트 오프셋입니다.
  • `row_splits[i+1] - row_splits[i]`는 `i`번째 문자열(행 우선 순서)의 문자 수입니다.

중첩 클래스

수업 UnicodeDecodeWithOffsets.Options UnicodeDecodeWithOffsets 의 선택적 속성

상수

OP_NAME TensorFlow 코어 엔진에서 알려진 이 작업의 이름

공개 방법

출력 < TInt64 >
charToByteStarts ()
'char_values'의 각 문자가 시작되는 입력 문자열의 바이트 인덱스를 포함하는 1D int32 Tensor입니다.
출력 < TInt32 >
char값 ()
디코딩된 코드 포인트를 포함하는 1D int32 Tensor.
정적 UnicodeDecodeWithOffsets <TInt64>
생성 ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, 옵션... 옵션)
기본 출력 유형을 사용하여 새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
static <T는 TNumber를 확장합니다. > UnicodeDecodeWithOffsets <T>
생성 ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, Class<T> Tsplits, 옵션... 옵션)
새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
정적 UnicodeDecodeWithOffsets.Options
오류 (문자열 오류)
정적 UnicodeDecodeWithOffsets.Options
replacementControlCharacters (부울 교체ControlCharacters)
정적 UnicodeDecodeWithOffsets.Options
replacementChar (긴 replacementChar)
출력 <T>
행분할 ()
행 분할을 포함하는 1D int32 텐서.

상속된 메서드

상수

공개 정적 최종 문자열 OP_NAME

TensorFlow 코어 엔진에서 알려진 이 작업의 이름

상수 값: "UnicodeDecodeWithOffsets"

공개 방법

공개 출력 <TInt64> charToByteStarts ()

'char_values'의 각 문자가 시작되는 입력 문자열의 바이트 인덱스를 포함하는 1D int32 Tensor입니다.

공개 출력 <TInt32> charValues ()

디코딩된 코드 포인트를 포함하는 1D int32 Tensor.

public static UnicodeDecodeWithOffsets < TInt64 > create ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, 옵션... 옵션)

기본 출력 유형을 사용하여 새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
입력 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다.
입력인코딩 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`.
옵션 선택적 속성 값을 전달합니다.
보고
  • UnicodeDecodeWithOffsets의 새 인스턴스

공개 정적 UnicodeDecodeWithOffsets <T> 생성 ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, Class<T> Tsplits, 옵션... 옵션)

새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
입력 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다.
입력인코딩 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`.
옵션 선택적 속성 값을 전달합니다.
보고
  • UnicodeDecodeWithOffsets의 새 인스턴스

공개 정적 UnicodeDecodeWithOffsets.Options 오류 (문자열 오류)

매개변수
오류 입력에 잘못된 형식이 있는 경우 오류 처리 정책입니다. 'strict' 값을 사용하면 잘못된 입력 형식에 대해 작업에서 InvalidArgument 오류가 생성됩니다. 'replace' 값(기본값)을 사용하면 입력의 잘못된 형식을 `replacement_char` 코드 포인트로 바꾸는 작업이 수행됩니다. 'ignore' 값을 사용하면 작업이 입력에서 잘못된 형식을 건너뛰고 해당 출력 문자가 생성되지 않습니다.

공개 정적 UnicodeDecodeWithOffsets.Options 대체ControlCharacters (부울 대체ControlCharacters)

매개변수
교체컨트롤문자 C0 제어 문자(00-1F)를 `replacement_char`로 바꿀지 여부입니다. 기본값은 거짓입니다.

공개 정적 UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)

매개변수
교체문자 `errors='replace'`일 때 입력의 유효하지 않은 형식화 대신 사용할 대체 문자 코드포인트입니다. 유효한 유니코드 코드 포인트를 사용할 수 있습니다. 기본값은 기본 유니코드 대체 문자가 0xFFFD 또는 U+65533입니다.)

공개 출력 <T> rowSplits ()

행 분할을 포함하는 1D int32 텐서.