「input」内の各文字列を一連の Unicode コード ポイントにデコードします。
すべての文字列の文字コードポイントは、単一のベクトル `char_values` を使用して返され、文字列は行優先の順序で文字に展開されます。同様に、文字の開始バイト オフセットは、単一のベクトル `char_to_byte_starts` を使用して返され、文字列は行優先の順序で展開されます。
`row_splits` テンソルは、各入力文字列のコードポイントと開始オフセットが `char_values` および `char_to_byte_starts` テンソル内で開始および終了する場所を示します。特に、「i」番目の文字列 (行優先順) の値は、スライス `[row_splits[i]:row_splits[i+1]]` に格納されます。したがって:
- `char_values[row_splits[i]+j]` は、(行優先順で) `i` 番目の文字列内の `j` 番目の文字の Unicode コードポイントです。
- `char_to_bytes_starts[row_splits[i]+j]` は、(行優先の) `i` 番目の文字列内の `j` 番目の文字の開始バイト オフセットです。
- `row_splits[i+1] - row_splits[i]` は、`i` 番目の文字列 (行優先順) の文字数です。
ネストされたクラス
クラス | UnicodeDecodeWithOffsets.Options | UnicodeDecodeWithOffsets のオプションの属性 |
定数
弦 | OP_NAME | TensorFlow コア エンジンによって認識される、この演算の名前 |
パブリックメソッド
出力< TInt64 > | charToByteStarts () `char_values` の各文字が始まる入力文字列内のバイト インデックスを含む 1D int32 Tensor。 |
出力< TInt32 > | charValues () デコードされたコードポイントを含む 1D int32 Tensor。 |
静的UnicodeDecodeWithOffsets < TInt64 > | |
static <T extends TNumber > UnicodeDecodeWithOffsets <T> | create ( Scopeスコープ、 Operand < TString > input、String inputEncoding、Class<T> Tsplits、 Options...オプション) 新しい UnicodeDecodeWithOffsets 操作をラップするクラスを作成するファクトリ メソッド。 |
静的UnicodeDecodeWithOffsets.Options | エラー(文字列エラー) |
静的UnicodeDecodeWithOffsets.Options | replaceControlCharacters (ブール値 replaceControlCharacters) |
静的UnicodeDecodeWithOffsets.Options | replaceChar (長い replaceChar) |
出力<T> | 行分割() 行分割を含む 1D int32 テンソル。 |
継承されたメソッド
定数
パブリック静的最終文字列OP_NAME
TensorFlow コア エンジンによって認識される、この演算の名前
パブリックメソッド
public Output < TInt64 > charToByteStarts ()
`char_values` の各文字が始まる入力文字列内のバイト インデックスを含む 1D int32 Tensor。
public static UnicodeDecodeWithOffsets < TInt64 > create ( Scopeスコープ、 Operand < TString > input、String inputEncoding、 Options...オプション)
デフォルトの出力タイプを使用して、新しい UnicodeDecodeWithOffsets オペレーションをラップするクラスを作成するファクトリ メソッド。
パラメーター
範囲 | 現在のスコープ |
---|---|
入力 | デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。 |
入力エンコーディング | 入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。 |
オプション | オプションの属性値を持ちます |
戻り値
- UnicodeDecodeWithOffsets の新しいインスタンス
public static UnicodeDecodeWithOffsets <T> create (スコープスコープ、オペランド< TString > 入力、文字列 inputEncoding、Class<T> Tsplits、オプション...オプション)
新しい UnicodeDecodeWithOffsets 操作をラップするクラスを作成するファクトリ メソッド。
パラメーター
範囲 | 現在のスコープ |
---|---|
入力 | デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。 |
入力エンコーディング | 入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。 |
オプション | オプションの属性値を持ちます |
戻り値
- UnicodeDecodeWithOffsets の新しいインスタンス
public static UnicodeDecodeWithOffsets.Optionsエラー(文字列エラー)
パラメーター
エラー | 入力に無効な形式が見つかった場合のエラー処理ポリシー。 'strict' の値を指定すると、無効な入力形式に対して操作で InvalidArgument エラーが生成されます。値「replace」(デフォルト) を指定すると、入力内の無効な書式設定が「replacement_char」コードポイントで置き換えられます。値が「ignore」の場合、操作では入力内の無効な書式設定がスキップされ、対応する出力文字は生成されません。 |
---|
public static UnicodeDecodeWithOffsets.Options replaceControlCharacters (ブール値 replaceControlCharacters)
パラメーター
制御文字を置き換える | C0 制御文字 (00 ~ 1F) を `replacement_char` に置き換えるかどうか。デフォルトは false です。 |
---|
public static UnicodeDecodeWithOffsets.Options replaceChar (Long replaceChar)
パラメーター
置換文字 | `errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。) |
---|