FixedUnigramCandidateSampler.Options classe estática pública
Atributos opcionais para FixedUnigramCandidateSampler
Métodos Públicos
FixedUnigramCandidateSampler.Options | distorção (distorção Float) |
FixedUnigramCandidateSampler.Options | numReservedIds (numReservedIds Long) |
FixedUnigramCandidateSampler.Options | numShards (numShards Long) |
FixedUnigramCandidateSampler.Options | sementes (semente Long) |
FixedUnigramCandidateSampler.Options | seed2 (seed2 Long) |
FixedUnigramCandidateSampler.Options | caco (caco Long) |
FixedUnigramCandidateSampler.Options | unigramas (List <float> unigramas) |
FixedUnigramCandidateSampler.Options | vocabFile (String vocabFile) |
Métodos herdados
Métodos Públicos
pública FixedUnigramCandidateSampler.Options distorção (distorção Float)
Parâmetros
distorção | A distorção é usada para distorcer a distribuição de probabilidade do unigrama. Cada peso é primeiro elevado à potência da distorção antes de ser adicionado à distribuição unigrama interna. Como resultado, distorção = 1,0 fornece amostragem unigrama regular (conforme definido pelo arquivo de vocabulário) e distorção = 0,0 fornece uma distribuição uniforme. |
---|
públicas FixedUnigramCandidateSampler.Options numReservedIds (numReservedIds Long)
Parâmetros
numReservedIds | Opcionalmente, alguns IDs reservados podem ser adicionados no intervalo [0, ..., num_reserved_ids) pelos usuários. Um caso de uso é que um token de palavra desconhecida especial é usado como ID 0. Esses IDs terão uma probabilidade de amostragem de 0. |
---|
públicas FixedUnigramCandidateSampler.Options numShards (numShards Long)
Parâmetros
numShards | Um amostrador pode ser usado para amostrar de um subconjunto do intervalo original para acelerar todo o cálculo por meio do paralelismo. Este parâmetro (junto com 'shard') indica o número de partições que estão sendo usadas na computação geral. |
---|
pública FixedUnigramCandidateSampler.Options semente (seed Long)
Parâmetros
semente | Se seed ou seed2 forem definidos como diferentes de zero, o gerador de número aleatório é propagado por um determinado seed. Caso contrário, é semeado por uma semente aleatória. |
---|
públicas FixedUnigramCandidateSampler.Options seed2 (seed2 Long)
Parâmetros
seed2 | Uma segunda semente para evitar a colisão de sementes. |
---|
pública FixedUnigramCandidateSampler.Options Shard (caco Long)
Parâmetros
fragmento | Um amostrador pode ser usado para amostrar de um subconjunto do intervalo original para acelerar todo o cálculo por meio do paralelismo. Este parâmetro (junto com 'num_shards') indica o número de partição particular de uma operação de amostrador, quando o particionamento está sendo usado. |
---|
públicas FixedUnigramCandidateSampler.Options unigramas (List <float> unigramas)
Parâmetros
unigramas | Uma lista de contagens de unigrama ou probabilidades, uma por ID em ordem sequencial. Exatamente um de vocab_file e unigramas deve ser passado para este op. |
---|
pública FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
Parâmetros
vocabulário | Cada linha válida neste arquivo (que deve ter um formato semelhante ao CSV) corresponde a um ID de palavra válido. Os IDs estão em ordem sequencial, começando em num_reserved_ids. Espera-se que a última entrada em cada linha seja um valor correspondente à contagem ou probabilidade relativa. Exatamente um de vocab_file e unigramas precisa ser passado para este op. |
---|