Biorąc pod uwagę ścieżkę do nowych i starych plików słownictwa, zwraca remapujący Tensor
długość `num_new_vocab`, gdzie `remapping[i]` zawiera numer wiersza w starym słownictwie, który odpowiada wierszowi `i` w nowym słownictwie (zaczynając od linii `new_vocab_offset` i aż do `num_new_vocab` elementów) lub `- 1”, jeśli pozycja „i” w nowym słowniku nie znajduje się w starym słowniku. Stare słownictwo jest ograniczone do pierwszych wpisów `old_vocab_size`, jeśli `old_vocab_size` nie ma domyślnej wartości -1.
Opcja `num_vocab_offset` umożliwia użycie w przypadku zmiennej podzielonej na partycje i ogólnie powinna być ustawiona poprzez sprawdzenie informacji o partycjonowaniu. Format plików powinien być plikiem tekstowym, w którym każda linia zawiera pojedynczy element ze słownika.
Na przykład w przypadku `new_vocab_file` plik tekstowy zawierający każdy z następujących elementów w jednej linii: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, zwrócone remapowanie będzie wynosić `[0, -1, 2]`.
Operacja zwraca również liczbę wpisów z nowego słownictwa, które były obecne w starym słownictwie, co jest wykorzystywane do obliczenia liczby wartości do zainicjowania w ponownym mapowaniu macierzy wag
Funkcjonalności tej można używać do ponownego mapowania zarówno słowników wierszowych (zazwyczaj funkcji), jak i słowników kolumnowych (zazwyczaj klas) z punktów kontrolnych TensorFlow. Należy zauważyć, że logika partycjonowania opiera się na ciągłych słownikach odpowiadających zmiennym podzielonym na partycje. Co więcej, podstawowe remapowanie wykorzystuje IndexTable (w przeciwieństwie do niedokładnej CuckooTable), więc kod klienta powinien używać odpowiedniej Index_table_from_file() tak jak robi to framework FeatureColumn (w przeciwieństwie do tf.feature_to_id(), która używa CuckooTable).
Klasy zagnieżdżone
klasa | WygenerujVocabRemapping.Options | Opcjonalne atrybuty dla GenerateVocabRemapping |
Stałe
Strunowy | OP_NAME | Nazwa tej operacji znana silnikowi rdzenia TensorFlow |
Metody publiczne
statyczny GenerujVocabRemapping | |
Dane wyjściowe <TInt32> | liczbaobecnych () Liczba nowych wpisów słownikowych znalezionych w starym słownictwie. |
statyczny GenerateVocabRemapping.Options | oldVocabSize (Długie oldVocabSize) |
Dane wyjściowe <TInt64> | ponowne mapowanie () Tensor o długości num_new_vocab, w którym element o indeksie i jest równy staremu identyfikatorowi, który jest odwzorowywany na nowy identyfikator i. |
Metody dziedziczone
Stałe
publiczny statyczny końcowy ciąg znaków OP_NAME
Nazwa tej operacji znana silnikowi rdzenia TensorFlow
Metody publiczne
public static GenerateVocabRemapping create ( Zakres zakresu, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Długi newVocabOffset, Długi numNewVocab, Opcje... opcje)
Metoda fabryczna służąca do tworzenia klasy opakowującej nową operację GenerateVocabRemapping.
Parametry
zakres | aktualny zakres |
---|---|
nowy plik Vocab | Ścieżka do nowego pliku vocab. |
stary plik Vocab | Ścieżka do starego pliku vocab. |
nowyVocabOffset | Liczba wpisów w nowym pliku słownika, aby rozpocząć czytanie. |
numNewVocab | Liczba wpisów w nowym pliku słownika do ponownego przypisania. |
opcje | przenosi opcjonalne wartości atrybutów |
Zwroty
- nowa instancja GenerateVocabRemapping
publiczne wyjście < TInt32 > numPresent ()
Liczba nowych wpisów słownikowych znalezionych w starym słownictwie.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parametry
staryVocabRozmiar | Liczba wpisów w starym pliku słownika, które należy wziąć pod uwagę. Jeśli -1, użyj całego starego słownictwa. |
---|