GenerateVocabRemapping

publiczna klasa końcowa GenerateVocabRemapping

Biorąc pod uwagę ścieżkę do nowych i starych plików słownictwa, zwraca remapujący Tensor

długość `num_new_vocab`, gdzie `remapping[i]` zawiera numer wiersza w starym słownictwie, który odpowiada wierszowi `i` w nowym słownictwie (zaczynając od linii `new_vocab_offset` i aż do `num_new_vocab` elementów) lub `- 1”, jeśli pozycja „i” w nowym słowniku nie znajduje się w starym słowniku. Stare słownictwo jest ograniczone do pierwszych wpisów `old_vocab_size`, jeśli `old_vocab_size` nie ma domyślnej wartości -1.

Opcja `num_vocab_offset` umożliwia użycie w przypadku zmiennej podzielonej na partycje i ogólnie powinna być ustawiona poprzez sprawdzenie informacji o partycjonowaniu. Format plików powinien być plikiem tekstowym, w którym każda linia zawiera pojedynczy element ze słownika.

Na przykład w przypadku `new_vocab_file` plik tekstowy zawierający każdy z następujących elementów w jednej linii: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, zwrócone remapowanie będzie wynosić `[0, -1, 2]`.

Operacja zwraca również liczbę wpisów z nowego słownictwa, które były obecne w starym słownictwie, co jest wykorzystywane do obliczenia liczby wartości do zainicjowania w ponownym mapowaniu macierzy wag

Funkcjonalności tej można używać do ponownego mapowania zarówno słowników wierszowych (zazwyczaj funkcji), jak i słowników kolumnowych (zazwyczaj klas) z punktów kontrolnych TensorFlow. Należy zauważyć, że logika partycjonowania opiera się na ciągłych słownikach odpowiadających zmiennym podzielonym na partycje. Co więcej, podstawowe remapowanie wykorzystuje IndexTable (w przeciwieństwie do niedokładnej CuckooTable), więc kod klienta powinien używać odpowiedniej Index_table_from_file() tak jak robi to framework FeatureColumn (w przeciwieństwie do tf.feature_to_id(), która używa CuckooTable).

Klasy zagnieżdżone

klasa WygenerujVocabRemapping.Options Opcjonalne atrybuty dla GenerateVocabRemapping

Stałe

Strunowy OP_NAME Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Metody publiczne

statyczny GenerujVocabRemapping
utwórz ( Zakres zasięgu, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Długi newVocabOffset, Długi numNewVocab, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację GenerateVocabRemapping.
Dane wyjściowe <TInt32>
liczbaobecnych ()
Liczba nowych wpisów słownikowych znalezionych w starym słownictwie.
statyczny GenerateVocabRemapping.Options
oldVocabSize (Długie oldVocabSize)
Dane wyjściowe <TInt64>
ponowne mapowanie ()
Tensor o długości num_new_vocab, w którym element o indeksie i jest równy staremu identyfikatorowi, który jest odwzorowywany na nowy identyfikator i.

Metody dziedziczone

Stałe

publiczny statyczny końcowy ciąg znaków OP_NAME

Nazwa tej operacji znana silnikowi rdzenia TensorFlow

Wartość stała: „GenerateVocabRemapping”

Metody publiczne

public static GenerateVocabRemapping create ( Zakres zakresu, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Długi newVocabOffset, Długi numNewVocab, Opcje... opcje)

Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację GenerateVocabRemapping.

Parametry
zakres aktualny zakres
nowy plik Vocab Ścieżka do nowego pliku vocab.
stary plik Vocab Ścieżka do starego pliku vocab.
nowyVocabOffset Liczba wpisów w nowym pliku słownika, aby rozpocząć czytanie.
numNewVocab Liczba wpisów w nowym pliku słownika do ponownego przypisania.
opcje przenosi opcjonalne wartości atrybutów
Zwroty
  • nowa instancja GenerateVocabRemapping

publiczne wyjście < TInt32 > numPresent ()

Liczba nowych wpisów słownikowych znalezionych w starym słownictwie.

public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Parametry
staryVocabRozmiar Liczba wpisów w starym pliku słownika, które należy wziąć pod uwagę. Jeśli -1, użyj całego starego słownictwa.

publiczne wyjście < TInt64 > ponowne mapowanie ()

Tensor o długości num_new_vocab, w którym element o indeksie i jest równy staremu identyfikatorowi, który jest odwzorowywany na nowy identyfikator i. Ten element ma wartość -1 dla każdego nowego identyfikatora, którego nie ma w starym słowniku.