classe statica pubblica FixedUnigramCandidateSampler.Options
Attributi facoltativi per FixedUnigramCandidateSampler
Metodi pubblici
Risolto il problema con UnigramCandidateSampler.Options | distorsione (distorsione mobile) |
Risolto il problema con UnigramCandidateSampler.Options | numReservedIds (numReservedIds lunghi) |
Risolto il problema con UnigramCandidateSampler.Options | numShards (numShards lunghi) |
Risolto il problema con UnigramCandidateSampler.Options | seme (seme lungo) |
Risolto il problema con UnigramCandidateSampler.Options | seme2 (seme lungo2) |
Risolto il problema con UnigramCandidateSampler.Options | frammento (frammento lungo) |
Risolto il problema con UnigramCandidateSampler.Options | unigrammi (List<Float> unigrammi) |
Risolto il problema con UnigramCandidateSampler.Options | vocabFile (Stringa vocabFile) |
Metodi ereditati
Metodi pubblici
public FixedUnigramCandidateSampler.Options distorsione (distorsione float)
Parametri
distorsione | La distorsione viene utilizzata per distorcere la distribuzione di probabilità dell'unigramma. Ogni peso viene prima aumentato alla potenza della distorsione prima di aggiungerlo alla distribuzione unigramma interna. Di conseguenza, distorsione = 1.0 fornisce un campionamento unigramma regolare (come definito dal file vocab) e distorsione = 0.0 fornisce una distribuzione uniforme. |
---|
public FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
Parametri
numReservedId | Facoltativamente gli utenti possono aggiungere alcuni ID riservati nell'intervallo [0, ..., num_reserved_ids). Un caso d'uso è che uno speciale token di parola sconosciuta viene utilizzato come ID 0. Questi ID avranno una probabilità di campionamento pari a 0. |
---|
public FixedUnigramCandidateSampler.Options numShards (numShards lunghi)
Parametri
numShards | È possibile utilizzare un campionatore per campionare da un sottoinsieme dell'intervallo originale per accelerare l'intero calcolo attraverso il parallelismo. Questo parametro (insieme a 'shard') indica il numero di partizioni utilizzate nel calcolo complessivo. |
---|
seed pubblico FixedUnigramCandidateSampler.Options (seed lungo)
Parametri
seme | Se seed o seed2 sono impostati su un valore diverso da zero, il generatore di numeri casuali viene seminato dal seed specificato. Altrimenti, viene seminato da un seme casuale. |
---|
public FixedUnigramCandidateSampler.Options seed2 (Seed lungo2)
Parametri
seme2 | Un secondo seme per evitare la collisione dei semi. |
---|
frammento pubblico FixedUnigramCandidateSampler.Options (frammento lungo)
Parametri
coccio | È possibile utilizzare un campionatore per campionare da un sottoinsieme dell'intervallo originale per accelerare l'intero calcolo attraverso il parallelismo. Questo parametro (insieme a 'num_shards') indica il numero di partizione particolare di un'operazione di campionamento, quando viene utilizzato il partizionamento. |
---|
public FixedUnigramCandidateSampler.Options unigrammi (List<Float> unigrammi)
Parametri
unigrammi | Un elenco di conteggi o probabilità di unigrammi, uno per ID in ordine sequenziale. A questa operazione dovrebbe essere passato esattamente uno tra vocab_file e unigrams. |
---|
public FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)
Parametri
vocabFile | Ogni riga valida in questo file (che dovrebbe avere un formato simile a CSV) corrisponde a un ID di parola valido. Gli ID sono in ordine sequenziale, a partire da num_reserved_ids. Si prevede che l'ultima voce in ciascuna riga sia un valore corrispondente al conteggio o alla probabilità relativa. A questa operazione deve essere passato esattamente uno tra vocab_file e unigrams. |
---|