FixedUnigramCandidateSampler.Options

パブリック静的クラスFixedUnigramCandidateSampler.Options

FixedUnigramCandidateSamplerのオプションの属性

パブリックメソッド

FixedUnigramCandidateSampler.Options
歪み(フロート歪み)
FixedUnigramCandidateSampler.Options
numReservedIds (長い numReservedIds)
FixedUnigramCandidateSampler.Options
numShards (長い numShards)
FixedUnigramCandidateSampler.Options
種子(長い種子)
FixedUnigramCandidateSampler.Options
シード2 (ロングシード2)
FixedUnigramCandidateSampler.Options
シャード(長いシャード)
FixedUnigramCandidateSampler.Options
ユニグラム(List<Float> ユニグラム)
FixedUnigramCandidateSampler.Options
vocabFile (文字列 vocabFile)

継承されたメソッド

パブリックメソッド

publicFixedUnigramCandidateSampler.Options歪み(Float 歪み)

パラメーター
ねじれ歪みはユニグラム確率分布を歪めるために使用されます。各重みは、内部ユニグラム分布に追加される前に、まず歪みの乗に引き上げられます。結果として、distortion = 1.0 は通常のユニグラム サンプリング (語彙ファイルで定義されたとおり) を提供し、distortion = 0.0 は均一な分布を提供します。

publicFixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

パラメーター
numReservedIdsオプションで、ユーザーはいくつかの予約済み ID を [0, ..., num_reserved_ids) の範囲で追加できます。 1 つの使用例は、特別な未知の単語トークンが ID 0 として使用されることです。これらの ID のサンプリング確率は 0 になります。

publicFixedUnigramCandidateSampler.Options numShards (Long numShards)

パラメーター
シャード数サンプラーを使用して、元の範囲のサブセットからサンプリングすることで、並列処理を通じて計算全体を高速化できます。このパラメーター (「shard」と合わせて) は、計算全体で使用されているパーティションの数を示します。

publicFixedUnigramCandidateSampler.Optionsシード(ロングシード)

パラメーター
シードシードまたはシード 2 のいずれかが 0 以外に設定されている場合、乱数ジェネレータには指定されたシードがシードされます。それ以外の場合は、ランダム シードによってシードされます。

publicFixedUnigramCandidateSampler.Optionsシード2 (ロングシード2)

パラメーター
シード2シードの衝突を避けるための 2 番目のシード。

publicFixedUnigramCandidateSampler.Optionsシャード(長いシャード)

パラメーター
シャードサンプラーを使用して、元の範囲のサブセットからサンプリングすることで、並列処理を通じて計算全体を高速化できます。このパラメータは (「num_shards」と合わせて) パーティショニングが使用されている場合に、サンプラー オペレーションの特定のパーティション番号を示します。

publicFixedUnigramCandidateSampler.Optionsユニグラム(List<Float> ユニグラム)

パラメーター
ユニグラムユニグラム数または確率のリスト。ID ごとに 1 つずつ、順番に並べられます。 vocab_file と unigrams のうちの 1 つだけをこの操作に渡す必要があります。

publicFixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

パラメーター
語彙ファイルこのファイル (CSV のような形式である必要があります) 内の各有効な行は、有効な単語 ID に対応します。 ID は num_reserved_ids から始まる順番です。各行の最後のエントリは、カウントまたは相対確率に対応する値であることが期待されます。 vocab_file と unigrams の 1 つだけをこの操作に渡す必要があります。