UnicodeDecodeWithOffsets

パブリック最終クラスUnicodeDecodeWithOffsets

「input」内の各文字列を一連の Unicode コード ポイントにデコードします。

すべての文字列の文字コードポイントは、単一のベクトル `char_values` を使用して返され、文字列は行優先の順序で文字に展開されます。同様に、文字の開始バイト オフセットは、単一のベクトル `char_to_byte_starts` を使用して返され、文字列は行優先の順序で展開されます。

`row_splits` テンソルは、各入力文字列のコードポイントと開始オフセットが `char_values` および `char_to_byte_starts` テンソル内で開始および終了する場所を示します。特に、「i」番目の文字列 (行優先順) の値は、スライス `[row_splits[i]:row_splits[i+1]]` に格納されます。したがって:

  • `char_values[row_splits[i]+j]` は、(行優先順で) `i` 番目の文字列内の `j` 番目の文字の Unicode コードポイントです。
  • `char_to_bytes_starts[row_splits[i]+j]` は、(行優先の) `i` 番目の文字列内の `j` 番目の文字の開始バイト オフセットです。
  • `row_splits[i+1] - row_splits[i]` は、`i` 番目の文字列 (行優先順) の文字数です。

ネストされたクラス

クラスUnicodeDecodeWithOffsets.Options UnicodeDecodeWithOffsetsのオプションの属性

定数

OP_NAME TensorFlow コア エンジンによって認識される、この演算の名前

パブリックメソッド

出力< TInt64 >
charToByteStarts ()
`char_values` の各文字が始まる入力文字列内のバイト インデックスを含む 1D int32 Tensor。
出力< TInt32 >
charValues ()
デコードされたコードポイントを含む 1D int32 Tensor。
静的UnicodeDecodeWithOffsets < TInt64 >
create (スコープscope、オペランド<TString>入力、文字列inputEncoding、オプション...オプション)
デフォルトの出力タイプを使用して、新しい UnicodeDecodeWithOffsets オペレーションをラップするクラスを作成するファクトリ メソッド。
static <T extends TNumber > UnicodeDecodeWithOffsets <T>
create ( Scopeスコープ、 Operand < TString > input、String inputEncoding、Class<T> Tsplits、 Options...オプション)
新しい UnicodeDecodeWithOffsets 操作をラップするクラスを作成するファクトリ メソッド。
静的UnicodeDecodeWithOffsets.Options
エラー(文字列エラー)
静的UnicodeDecodeWithOffsets.Options
replaceControlCharacters (ブール値 replaceControlCharacters)
静的UnicodeDecodeWithOffsets.Options
replaceChar (長い replaceChar)
出力<T>
行分割()
行分割を含む 1D int32 テンソル。

継承されたメソッド

定数

パブリック静的最終文字列OP_NAME

TensorFlow コア エンジンによって認識される、この演算の名前

定数値: "UnicodeDecodeWithOffsets"

パブリックメソッド

public Output < TInt64 > charToByteStarts ()

`char_values` の各文字が始まる入力文字列内のバイト インデックスを含む 1D int32 Tensor。

public Output < TInt32 > charValues ()

デコードされたコードポイントを含む 1D int32 Tensor。

public static UnicodeDecodeWithOffsets < TInt64 > create ( Scopeスコープ、 Operand < TString > input、String inputEncoding、 Options...オプション)

デフォルトの出力タイプを使用して、新しい UnicodeDecodeWithOffsets オペレーションをラップするクラスを作成するファクトリ メソッド。

パラメーター
範囲現在のスコープ
入力デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。
入力エンコーディング入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。
オプションオプションの属性値を持ちます
戻り値
  • UnicodeDecodeWithOffsets の新しいインスタンス

public static UnicodeDecodeWithOffsets <T> create (スコープスコープ、オペランド< TString > 入力、文字列 inputEncoding、Class<T> Tsplits、オプション...オプション)

新しい UnicodeDecodeWithOffsets 操作をラップするクラスを作成するファクトリ メソッド。

パラメーター
範囲現在のスコープ
入力デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。
入力エンコーディング入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。
オプションオプションの属性値を持ちます
戻り値
  • UnicodeDecodeWithOffsets の新しいインスタンス

public static UnicodeDecodeWithOffsets.Optionsエラー(文字列エラー)

パラメーター
エラー入力に無効な形式が見つかった場合のエラー処理ポリシー。 'strict' の値を指定すると、無効な入力形式に対して操作で InvalidArgument エラーが生成されます。値「replace」(デフォルト) を指定すると、入力内の無効な書式設定が「replacement_char」コードポイントで置き換えられます。値が「ignore」の場合、操作では入力内の無効な書式設定がスキップされ、対応する出力文字は生成されません。

public static UnicodeDecodeWithOffsets.Options replaceControlCharacters (ブール値 replaceControlCharacters)

パラメーター
制御文字を置き換えるC0 制御文字 (00 ~ 1F) を `replacement_char` に置き換えるかどうか。デフォルトは false です。

public static UnicodeDecodeWithOffsets.Options replaceChar (Long replaceChar)

パラメーター
置換文字`errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。)

public Output <T> rowSplits ()

行分割を含む 1D int32 テンソル。