Generuje etykiety dla próbkowania kandydatów z wyuczonym rozkładem unigramów.
Próbnik unigramów mógłby wykorzystać stałą dystrybucję unigramów odczytaną z pliku lub przekazaną jako tablica w pamięci, zamiast budować dystrybucję na podstawie danych w locie. Istnieje również możliwość pochylenia rozkładu poprzez zastosowanie mocy zniekształcenia do ciężarków.
Plik słownika powinien być w formacie CSV, przy czym ostatnie pole zawiera wagę związaną ze słowem.
Dla każdej partii ta operacja wybiera jeden zestaw próbek potencjalnych etykiet.
Zaletami pobierania próbek kandydatów na partię jest prostota i możliwość wydajnego mnożenia gęstej macierzy. Wadą jest to, że wybrani kandydaci muszą być wybierani niezależnie od kontekstu i prawdziwych etykiet.
Klasy zagnieżdżone
klasa | NaprawionoUnigramCandidateSampler.Options | Opcjonalne atrybuty dla FixedUnigramCandidateSampler |
Stałe
Strunowy | OP_NAME | Nazwa tej operacji znana silnikowi rdzenia TensorFlow |
Metody publiczne
statyczny NaprawionoUnigramCandidateSampler | utwórz ( Zakres zasięgu , Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unikalna, Long rangeMax, Opcje... opcje) Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler. |
statyczny NaprawionoUnigramCandidateSampler.Options | zniekształcenie (zniekształcenie pływające) |
statyczny NaprawionoUnigramCandidateSampler.Options | numReservedIds (długie numReservedIds) |
statyczny NaprawionoUnigramCandidateSampler.Options | numShards (długie numShards) |
Dane wyjściowe <TInt64> | próbowani kandydaci () Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata. |
Dane wyjściowe <TFloat32> | próbkowaneOczekiwaneLiczba () Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów. |
statyczny NaprawionoUnigramCandidateSampler.Options | nasiona (długie nasiona) |
statyczny NaprawionoUnigramCandidateSampler.Options | nasiona 2 (Długie nasiona 2) |
statyczny NaprawionoUnigramCandidateSampler.Options | odłamek (długi odłamek) |
Dane wyjściowe <TFloat32> | prawdaOczekiwana liczba () Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów. |
statyczny NaprawionoUnigramCandidateSampler.Options | unigramy (List<Float> unigramy) |
statyczny NaprawionoUnigramCandidateSampler.Options | vocabFile (String vocabFile) |
Metody dziedziczone
Stałe
publiczny statyczny końcowy ciąg znaków OP_NAME
Nazwa tej operacji znana silnikowi rdzenia TensorFlow
Metody publiczne
public static FixUnigramCandidateSampler create ( Zakres zakresu, Operand < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean Unique, Long rangeMax, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację FixUnigramCandidateSampler.
Parametry
zakres | aktualny zakres |
---|---|
prawdziweKlasy | Macierz Batchsize * num_true, w której każdy wiersz zawiera identyfikatory klas docelowych num_true w odpowiedniej oryginalnej etykiecie. |
liczbaTrue | Liczba prawdziwych etykiet na kontekst. |
liczbapróbek | Liczba kandydatów do losowej próby. |
unikalny | Jeżeli wartość Unikalność ma wartość true, pobieramy próbkę z odrzuceniem, tak aby wszyscy pobrani do próby kandydaci w partii byli unikatowi. Wymaga to pewnego przybliżenia w celu oszacowania prawdopodobieństw pobierania próbek po odrzuceniu. |
zasięgMaks | Próbnik będzie próbkować liczby całkowite z przedziału [0, zakres_maks.). |
opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja FixedUnigramCandidateSampler
publiczne statyczne Zniekształcenie FixUnigramCandidateSampler.Options (zniekształcenie typu Float)
Parametry
zniekształcenie | Zniekształcenie służy do zniekształcenia rozkładu prawdopodobieństwa unigramu. Każda waga jest najpierw podnoszona do mocy zniekształcenia przed dodaniem do wewnętrznego rozkładu unigramów. W rezultacie zniekształcenie = 1,0 daje regularne próbkowanie unigramów (zgodnie z definicją w pliku słownika), a zniekształcenie = 0,0 daje równomierny rozkład. |
---|
publiczny statyczny FixUnigramCandidateSampler.Options numReservedIds (Długie numReservedIds)
Parametry
numReservedIds | Opcjonalnie użytkownicy mogą dodać zastrzeżone identyfikatory z zakresu [0, ..., num_reserved_ids). Jednym z przypadków użycia jest użycie specjalnego tokenu nieznanego słowa jako identyfikatora 0. Prawdopodobieństwo próbkowania tych identyfikatorów będzie wynosić 0. |
---|
public static NaprawionoUnigramCandidateSampler.Options numShards (Long numShards)
Parametry
liczbaodłamków | Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „shard”) wskazuje liczbę partycji używanych w ogólnych obliczeniach. |
---|
publiczne dane wyjściowe < TInt64 > sampledCandidates ()
Wektor o długości num_sampled, w którym każdy element jest identyfikatorem wybranego kandydata.
publiczne wyjście < TFloat32 > sampledExpectedCount ()
Wektor o długości num_sampled dla każdego wybranego kandydata reprezentujący oczekiwaną liczbę wystąpień danego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.
public static NaprawionoUnigramCandidateSampler.Options ziarno (długie ziarno)
Parametry
nasionko | Jeśli ziarno lub ziarno2 jest ustawione na wartość różną od zera, generator liczb losowych jest zaszczepiany przez dane ziarno. W przeciwnym razie jest on zaszczepiany losowo. |
---|
publiczny statyczny FixUnigramCandidateSampler.Options nasiono2 (długie ziarno2)
Parametry
ziarno2 | Drugie ziarno, aby uniknąć kolizji nasion. |
---|
publiczny statyczny fragment FixUnigramCandidateSampler.Options (długi fragment)
Parametry
czerep | Próbnik może służyć do próbkowania z podzbioru pierwotnego zakresu, aby przyspieszyć całe obliczenia poprzez równoległość. Ten parametr (wraz z „num_shards”) wskazuje konkretny numer partycji operacji próbnika, gdy używane jest partycjonowanie. |
---|
publiczne wyjście < TFloat32 > trueExpectedCount ()
Macierz Batchsize * Num_true, reprezentująca oczekiwaną liczbę wystąpień każdego kandydata w partii wybranych kandydatów. Jeśli unikalny=true, to jest to prawdopodobieństwo.
publiczne statyczne unigramy FixUnigramCandidateSampler.Options (unigramy List<Float>)
Parametry
unigramy | Lista zliczeń lub prawdopodobieństw unigramów, po jednym na każdy identyfikator w kolejności sekwencyjnej. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów. |
---|
publiczny statyczny NaprawionoUnigramCandidateSampler.Options vocabFile (String vocabFile)
Parametry
plik vocab | Każda prawidłowa linia w tym pliku (który powinien mieć format podobny do CSV) odpowiada prawidłowemu identyfikatorowi słowa. Identyfikatory są uporządkowane sekwencyjnie, zaczynając od num_reserved_ids. Oczekuje się, że ostatni wpis w każdym wierszu będzie wartością odpowiadającą liczbie lub prawdopodobieństwu względnemu. Do tej operacji należy przekazać dokładnie jeden z plików vocab_file i unigramów. |
---|