Diberikan jalur ke file kosakata baru dan lama, mengembalikan Tensor yang dipetakan ulang
panjang `num_new_vocab`, dengan `remapping[i]` berisi nomor baris dalam kosakata lama yang sesuai dengan baris `i` dalam kosakata baru (mulai dari baris `new_vocab_offset` dan hingga `num_new_vocab` entitas), atau `- 1` jika entri `i` pada kosakata baru tidak ada pada kosakata lama. Kosakata lama dibatasi pada entri `old_vocab_size` pertama jika `old_vocab_size` bukan nilai default -1.
`num_vocab_offset` memungkinkan penggunaan dalam kasus variabel yang dipartisi, dan umumnya harus diatur melalui pemeriksaan informasi partisi. Format file harus berupa file teks, dengan setiap baris berisi satu entitas dalam kosakata.
Misalnya, dengan `new_vocab_file` file teks yang berisi masing-masing elemen berikut dalam satu baris: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, pemetaan ulang yang dikembalikan akan menjadi `[0, -1, 2]`.
Operasi ini juga mengembalikan hitungan berapa banyak entri dalam kosakata baru yang ada dalam kosakata lama, yang digunakan untuk menghitung jumlah nilai yang akan diinisialisasi dalam pemetaan ulang matriks bobot
Fungsionalitas ini dapat digunakan untuk memetakan ulang kosakata baris (biasanya fitur) dan kosakata kolom (biasanya kelas) dari pos pemeriksaan TensorFlow. Perhatikan bahwa logika partisi bergantung pada kosakata yang berdekatan sesuai dengan variabel yang dipartisi div. Selain itu, pemetaan ulang yang mendasarinya menggunakan IndexTable (sebagai lawan dari CuckooTable yang tidak eksak), sehingga kode klien harus menggunakan index_table_from_file() yang sesuai seperti yang dilakukan kerangka FeatureColumn (sebagai lawan dari tf.feature_to_id(), yang menggunakan CuckooTable).
Kelas Bersarang
kelas | HasilkanVocabRemapping.Options | Atribut opsional untuk GenerateVocabRemapping |
Konstanta
Rangkaian | OP_NAME | Nama operasi ini dikenal dengan mesin inti TensorFlow |
Metode Publik
statis GenerateVocabRemapping | |
Keluaran < TInt32 > | jumlah Sekarang () Jumlah entri kosakata baru yang ditemukan di kosakata lama. |
statis GenerateVocabRemapping.Options | oldVocabSize (Ukuran Vocab lama yang panjang) |
Keluaran < TInt64 > | memetakan ulang () Tensor dengan panjang num_new_vocab dengan elemen pada indeks i sama dengan ID lama yang dipetakan ke ID baru i. |
Metode Warisan
Konstanta
String akhir statis publik OP_NAME
Nama operasi ini dikenal dengan mesin inti TensorFlow
Metode Publik
public static GenerateVocabRemapping buat ( Lingkup cakupan , Operan < TString > newVocabFile, Operan < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi GenerateVocabRemapping baru.
Parameter
cakupan | ruang lingkup saat ini |
---|---|
FileVocab baru | Jalur ke file vocab baru. |
FileVocab lama | Jalur ke file vocab lama. |
vocaboffset baru | Berapa banyak entri ke dalam file vocab baru untuk mulai membaca. |
numNewVocab | Jumlah entri dalam file vocab baru yang akan dipetakan ulang. |
pilihan | membawa nilai atribut opsional |
Kembali
- contoh baru dari GenerateVocabRemapping
Keluaran publik < TInt32 > numPresent ()
Jumlah entri kosakata baru yang ditemukan di kosakata lama.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parameter
ukuranVocab lama | Jumlah entri dalam file vocab lama yang perlu dipertimbangkan. Jika -1, gunakan seluruh kosakata lama. |
---|