FixedUnigramCandidateSampler

publiczna klasa końcowa FixUnigramCandidateSampler

Generuje etykiety dla próbkowania kandydatów z wyuczonym rozkładem unigramów.

Próbnik unigramów mógłby wykorzystać stałą dystrybucję unigramów odczytaną z pliku lub przekazaną jako tablica w pamięci, zamiast budować dystrybucję na podstawie danych w locie. Istnieje również możliwość pochylenia rozkładu poprzez zastosowanie mocy zniekształcenia do ciężarków.

Plik słownika powinien być w formacie CSV, przy czym ostatnie pole zawiera wagę związaną ze słowem.

Dla każdej partii ta operacja wybiera jeden zestaw próbek potencjalnych etykiet.

Zaletami pobierania próbek kandydatów na partię jest prostota i możliwość wydajnego mnożenia gęstej macierzy. Wadą jest to, że wybrani kandydaci muszą być wybierani niezależnie od kontekstu i prawdziwych etykiet.

Klasy zagnieżdżone

klasa NaprawionoUnigramCandidateSampler.Options Opcjonalne atrybuty dla FixedUnigramCandidateSampler

Stałe

Strunowy OP_NAME Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Metody publiczne

statyczny NaprawionoUnigramCandidateSampler
utwórz ( Zakres zasięgu , Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unikalna, Long rangeMax, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler.
statyczny NaprawionoUnigramCandidateSampler.Options
zniekształcenie (zniekształcenie pływające)
statyczny NaprawionoUnigramCandidateSampler.Options
numReservedIds (długie numReservedIds)
statyczny NaprawionoUnigramCandidateSampler.Options
numShards (długie numShards)
Dane wyjściowe <TInt64>
próbowani kandydaci ()
Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata.
Dane wyjściowe <TFloat32>
próbkowaneOczekiwaneLiczba ()
Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów.
statyczny NaprawionoUnigramCandidateSampler.Options
nasiona (długie nasiona)
statyczny NaprawionoUnigramCandidateSampler.Options
nasiona 2 (Długie nasiona 2)
statyczny NaprawionoUnigramCandidateSampler.Options
odłamek (długi odłamek)
Dane wyjściowe <TFloat32>
prawdaOczekiwana liczba ()
Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów.
statyczny NaprawionoUnigramCandidateSampler.Options
unigramy (List<Float> unigramy)
statyczny NaprawionoUnigramCandidateSampler.Options
vocabFile (String vocabFile)

Metody dziedziczone

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Wartość stała: „FixedUnigramCandidateSampler”

Metody publiczne

public static FixUnigramCandidateSampler create ( Zakres zakresu, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean Unique, Long rangeMax, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler.

Parametry
zakres aktualny zakres
prawdziweKlasy Macierz Batchsize * num_true, w której każdy wiersz zawiera identyfikatory klas docelowych num_true w odpowiedniej oryginalnej etykiecie.
liczbaTrue Liczba prawdziwych etykiet na kontekst.
liczbapróbek Liczba kandydatów do losowej próby.
unikalny Jeżeli wartość Unikalność ma wartość true, pobieramy próbkę z odrzuceniem, tak aby wszyscy pobrani do próby kandydaci w partii byli unikatowi. Wymaga to pewnego przybliżenia w celu oszacowania prawdopodobieństw pobierania próbek po odrzuceniu.
zasięgMaks Próbnik będzie próbkować liczby całkowite z przedziału [0, zakres_maks.).
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja FixedUnigramCandidateSampler

publiczne statyczne Zniekształcenie FixUnigramCandidateSampler.Options (zniekształcenie typu Float)

Parametry
zniekształcenie Zniekształcenie służy do zniekształcenia rozkładu prawdopodobieństwa unigramu. Każda waga jest najpierw podnoszona do mocy zniekształcenia przed dodaniem do wewnętrznego rozkładu unigramów. W rezultacie zniekształcenie = 1,0 daje regularne próbkowanie unigramów (zgodnie z definicją w pliku słownika), a zniekształcenie = 0,0 daje równomierny rozkład.

publiczny statyczny FixUnigramCandidateSampler.Options numReservedIds (Długie numReservedIds)

Parametry
numReservedIds Opcjonalnie użytkownicy mogą dodać zastrzeżone identyfikatory z zakresu [0, ..., num_reserved_ids). Jednym z przypadków użycia jest użycie specjalnego tokenu nieznanego słowa jako identyfikatora 0. Prawdopodobieństwo próbkowania tych identyfikatorów będzie wynosić 0.

public static NaprawionoUnigramCandidateSampler.Options numShards (Long numShards)

Parametry
liczbaodłamków Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „shard”) wskazuje liczbę partycji używanych w ogólnych obliczeniach.

publiczne dane wyjściowe < TInt64 > sampledCandidates ()

Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata.

publiczne wyjście < TFloat32 > sampledExpectedCount ()

Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.

public static NaprawionoUnigramCandidateSampler.Options ziarno (długie ziarno)

Parametry
nasionko Jeśli ziarno lub ziarno2 jest ustawione na wartość różną od zera, generator liczb losowych jest zaszczepiany przez dane ziarno. W przeciwnym razie jest on zaszczepiany losowo.

publiczny statyczny FixUnigramCandidateSampler.Options nasiono2 (długie ziarno2)

Parametry
ziarno2 Drugie ziarno, aby uniknąć kolizji nasion.

publiczny statyczny fragment FixUnigramCandidateSampler.Options (długi fragment)

Parametry
czerep Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „num_shards”) wskazuje konkretny numer partycji operacji próbnika, gdy używane jest partycjonowanie.

publiczne wyjście < TFloat32 > trueExpectedCount ()

Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.

publiczne statyczne unigramy FixUnigramCandidateSampler.Options (unigramy List<Float>)

Parametry
unigramy Lista zliczeń lub prawdopodobieństw unigramów, po jednym na każdy identyfikator w kolejności sekwencyjnej. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów.

publiczny statyczny NaprawionoUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parametry
plik vocab Każda prawidłowa linia w tym pliku (który powinien mieć format podobny do CSV) odpowiada prawidłowemu identyfikatorowi słowa. Identyfikatory są uporządkowane sekwencyjnie, zaczynając od num_reserved_ids. Oczekuje się, że ostatni wpis w każdym wierszu będzie wartością odpowiadającą liczbie lub prawdopodobieństwu względnemu. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów.