FixedUnigramCandidateSampler.Options

FixedUnigramCandidateSampler.Options classe estática pública

Atributos opcionais para FixedUnigramCandidateSampler

Métodos Públicos

FixedUnigramCandidateSampler.Options
distorção (distorção Float)
FixedUnigramCandidateSampler.Options
numReservedIds (numReservedIds Long)
FixedUnigramCandidateSampler.Options
numShards (numShards Long)
FixedUnigramCandidateSampler.Options
sementes (semente Long)
FixedUnigramCandidateSampler.Options
seed2 (seed2 Long)
FixedUnigramCandidateSampler.Options
caco (caco Long)
FixedUnigramCandidateSampler.Options
unigramas (List <float> unigramas)
FixedUnigramCandidateSampler.Options
vocabFile (String vocabFile)

Métodos herdados

Métodos Públicos

pública FixedUnigramCandidateSampler.Options distorção (distorção Float)

Parâmetros
distorção A distorção é usada para distorcer a distribuição de probabilidade do unigrama. Cada peso é primeiro elevado à potência da distorção antes de ser adicionado à distribuição unigrama interna. Como resultado, distorção = 1,0 fornece amostragem unigrama regular (conforme definido pelo arquivo de vocabulário) e distorção = 0,0 fornece uma distribuição uniforme.

públicas FixedUnigramCandidateSampler.Options numReservedIds (numReservedIds Long)

Parâmetros
numReservedIds Opcionalmente, alguns IDs reservados podem ser adicionados no intervalo [0, ..., num_reserved_ids) pelos usuários. Um caso de uso é que um token de palavra desconhecida especial é usado como ID 0. Esses IDs terão uma probabilidade de amostragem de 0.

públicas FixedUnigramCandidateSampler.Options numShards (numShards Long)

Parâmetros
numShards Um amostrador pode ser usado para amostrar de um subconjunto do intervalo original para acelerar todo o cálculo por meio do paralelismo. Este parâmetro (junto com 'shard') indica o número de partições que estão sendo usadas na computação geral.

pública FixedUnigramCandidateSampler.Options semente (seed Long)

Parâmetros
semente Se seed ou seed2 forem definidos como diferentes de zero, o gerador de número aleatório é propagado por um determinado seed. Caso contrário, é semeado por uma semente aleatória.

públicas FixedUnigramCandidateSampler.Options seed2 (seed2 Long)

Parâmetros
seed2 Uma segunda semente para evitar a colisão de sementes.

pública FixedUnigramCandidateSampler.Options Shard (caco Long)

Parâmetros
fragmento Um amostrador pode ser usado para amostrar de um subconjunto do intervalo original para acelerar todo o cálculo por meio do paralelismo. Este parâmetro (junto com 'num_shards') indica o número de partição particular de uma operação de amostrador, quando o particionamento está sendo usado.

públicas FixedUnigramCandidateSampler.Options unigramas (List <float> unigramas)

Parâmetros
unigramas Uma lista de contagens de unigrama ou probabilidades, uma por ID em ordem sequencial. Exatamente um de vocab_file e unigramas deve ser passado para este op.

pública FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parâmetros
vocabulário Cada linha válida neste arquivo (que deve ter um formato semelhante ao CSV) corresponde a um ID de palavra válido. Os IDs estão em ordem sequencial, começando em num_reserved_ids. Espera-se que a última entrada em cada linha seja um valor correspondente à contagem ou probabilidade relativa. Exatamente um de vocab_file e unigramas precisa ser passado para este op.