'input'의 각 문자열을 일련의 유니코드 코드 포인트로 디코딩합니다.
모든 문자열의 문자 코드 포인트는 단일 벡터 `char_values`를 사용하여 반환되며, 문자열은 행 우선 순서로 문자로 확장됩니다. 마찬가지로 문자 시작 바이트 오프셋은 단일 벡터 'char_to_byte_starts'를 사용하여 반환되며 문자열은 행 우선 순서로 확장됩니다.
`row_splits` 텐서는 `char_values` 및 `char_to_byte_starts` 텐서 내에서 각 입력 문자열의 코드 포인트와 시작 오프셋이 시작하고 끝나는 위치를 나타냅니다. 특히 `i`번째 문자열의 값(행 우선 순서)은 `[row_splits[i]:row_splits[i+1]]` 슬라이스에 저장됩니다. 따라서:
- `char_values[row_splits[i]+j]`는 `i`번째 문자열(행 우선 순서)에서 `j`번째 문자에 대한 유니코드 코드 포인트입니다.
- `char_to_bytes_starts[row_splits[i]+j]`는 `i`번째 문자열(행 우선 순서)에서 `j`번째 문자에 대한 시작 바이트 오프셋입니다.
- `row_splits[i+1] - row_splits[i]`는 `i`번째 문자열(행 우선 순서)의 문자 수입니다.
중첩 클래스
수업 | UnicodeDecodeWithOffsets.Options | UnicodeDecodeWithOffsets 의 선택적 속성 |
상수
끈 | OP_NAME | TensorFlow 코어 엔진에서 알려진 이 작업의 이름 |
공개 방법
출력 < TInt64 > | charToByteStarts () 'char_values'의 각 문자가 시작되는 입력 문자열의 바이트 인덱스를 포함하는 1D int32 Tensor입니다. |
출력 < TInt32 > | char값 () 디코딩된 코드 포인트를 포함하는 1D int32 Tensor. |
정적 UnicodeDecodeWithOffsets <TInt64> | |
static <T는 TNumber를 확장합니다. > UnicodeDecodeWithOffsets <T> | |
정적 UnicodeDecodeWithOffsets.Options | 오류 (문자열 오류) |
정적 UnicodeDecodeWithOffsets.Options | replacementControlCharacters (부울 교체ControlCharacters) |
정적 UnicodeDecodeWithOffsets.Options | replacementChar (긴 replacementChar) |
출력 <T> | 행분할 () 행 분할을 포함하는 1D int32 텐서. |
상속된 메서드
상수
공개 정적 최종 문자열 OP_NAME
TensorFlow 코어 엔진에서 알려진 이 작업의 이름
공개 방법
공개 출력 <TInt64> charToByteStarts ()
'char_values'의 각 문자가 시작되는 입력 문자열의 바이트 인덱스를 포함하는 1D int32 Tensor입니다.
public static UnicodeDecodeWithOffsets < TInt64 > create ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, 옵션... 옵션)
기본 출력 유형을 사용하여 새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
매개변수
범위 | 현재 범위 |
---|---|
입력 | 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다. |
입력인코딩 | 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`. |
옵션 | 선택적 속성 값을 전달합니다. |
보고
- UnicodeDecodeWithOffsets의 새 인스턴스
공개 정적 UnicodeDecodeWithOffsets <T> 생성 ( 범위 범위, 피연산자 < TString > 입력, 문자열 inputEncoding, Class<T> Tsplits, 옵션... 옵션)
새로운 UnicodeDecodeWithOffsets 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
매개변수
범위 | 현재 범위 |
---|---|
입력 | 디코딩할 텍스트입니다. 어떤 모양이든 가질 수 있습니다. 출력은 char 값의 벡터로 평면화됩니다. |
입력인코딩 | 입력 문자열의 텍스트 인코딩입니다. 이는 ICU ucnv 알고리즘 변환기가 지원하는 인코딩 중 하나입니다. 예: `"UTF-16", "US ASCII", "UTF-8"`. |
옵션 | 선택적 속성 값을 전달합니다. |
보고
- UnicodeDecodeWithOffsets의 새 인스턴스
공개 정적 UnicodeDecodeWithOffsets.Options 오류 (문자열 오류)
매개변수
오류 | 입력에 잘못된 형식이 있는 경우 오류 처리 정책입니다. 'strict' 값을 사용하면 잘못된 입력 형식에 대해 작업에서 InvalidArgument 오류가 생성됩니다. 'replace' 값(기본값)을 사용하면 입력의 잘못된 형식을 `replacement_char` 코드 포인트로 바꾸는 작업이 수행됩니다. 'ignore' 값을 사용하면 작업이 입력에서 잘못된 형식을 건너뛰고 해당 출력 문자가 생성되지 않습니다. |
---|
공개 정적 UnicodeDecodeWithOffsets.Options 대체ControlCharacters (부울 대체ControlCharacters)
매개변수
교체컨트롤문자 | C0 제어 문자(00-1F)를 `replacement_char`로 바꿀지 여부입니다. 기본값은 거짓입니다. |
---|
공개 정적 UnicodeDecodeWithOffsets.Options replacementChar (Long replacementChar)
매개변수
교체문자 | `errors='replace'`일 때 입력의 유효하지 않은 형식화 대신 사용할 대체 문자 코드포인트입니다. 유효한 유니코드 코드 포인트를 사용할 수 있습니다. 기본값은 기본 유니코드 대체 문자가 0xFFFD 또는 U+65533입니다.) |
---|