Menghasilkan label untuk pengambilan sampel kandidat dengan distribusi unigram yang dipelajari.
Sampler unigram dapat menggunakan distribusi unigram tetap yang dibaca dari file atau diteruskan sebagai array dalam memori alih-alih membangun distribusi dari data dengan cepat. Ada juga pilihan untuk mendistorsi distribusi dengan menerapkan kekuatan distorsi pada bobot.
File kosakata harus dalam format seperti CSV, dengan bidang terakhir adalah bobot yang terkait dengan kata tersebut.
Untuk setiap batch, operasi ini mengambil satu set sampel label kandidat.
Keuntungan pengambilan sampel kandidat per batch adalah kesederhanaan dan kemungkinan perkalian matriks padat yang efisien. Kerugiannya adalah kandidat yang dijadikan sampel harus dipilih secara independen dari konteks dan label yang sebenarnya.
Kelas Bersarang
kelas | MemperbaikiUnigramCandidateSampler.Options | Atribut opsional untuk FixedUnigramCandidateSampler |
Konstanta
Rangkaian | OP_NAME | Nama operasi ini dikenal dengan mesin inti TensorFlow |
Metode Publik
FixedUnigramCandidateSampler statis | |
FixedUnigramCandidateSampler.Options statis | distorsi (Distorsi mengambang) |
FixedUnigramCandidateSampler.Options statis | numReservedIds (JumlahReservedIds panjang) |
FixedUnigramCandidateSampler.Options statis | numShards (NumShards panjang) |
Keluaran < TInt64 > | sampelKandidat () Vektor dengan panjang num_sampled, yang setiap elemennya merupakan ID kandidat sampel. |
Keluaran < TFloat32 > | sampledExpectedCount () Sebuah vektor dengan panjang num_sampled, untuk setiap kandidat sampel yang mewakili berapa kali kandidat tersebut diharapkan muncul dalam sekumpulan kandidat sampel. |
FixedUnigramCandidateSampler.Options statis | benih (biji panjang) |
FixedUnigramCandidateSampler.Options statis | seed2 (Benih panjang2) |
FixedUnigramCandidateSampler.Options statis | pecahan (Pecahan panjang) |
Keluaran < TFloat32 > | benarExpectedCount () Matriks batch_size * num_true, mewakili berapa kali setiap kandidat diharapkan muncul dalam kumpulan kandidat sampel. |
FixedUnigramCandidateSampler.Options statis | unigram (Daftar<Float> unigram) |
FixedUnigramCandidateSampler.Options statis | vocabFile (String vocabFile) |
Metode Warisan
Konstanta
String akhir statis publik OP_NAME
Nama operasi ini dikenal dengan mesin inti TensorFlow
Metode Publik
public static FixedUnigramCandidateSampler buat ( Lingkup cakupan , Operan < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean unik, Long rangeMax, Opsi... opsi)
Metode pabrik untuk membuat kelas yang membungkus operasi FixedUnigramCandidateSampler baru.
Parameter
cakupan | ruang lingkup saat ini |
---|---|
Kelas benar | Matriks batch_size * num_true, yang setiap barisnya berisi ID dari num_true target_classes di label asli yang sesuai. |
nomor Benar | Jumlah label sebenarnya per konteks. |
jumlah sampel | Jumlah kandidat yang akan diambil sampelnya secara acak. |
unik | Jika keunikan benar, kami mengambil sampel dengan penolakan, sehingga semua kandidat sampel dalam suatu kelompok adalah unik. Hal ini memerlukan beberapa perkiraan untuk memperkirakan probabilitas pengambilan sampel pasca penolakan. |
rentang Maks | Sampler akan mengambil sampel bilangan bulat dari interval [0, range_max). |
pilihan | membawa nilai atribut opsional |
Kembali
- contoh baru dari FixedUnigramCandidateSampler
Distorsi FixedUnigramCandidateSampler.Options statis publik (Distorsi mengambang)
Parameter
distorsi | Distorsi digunakan untuk mendistorsi distribusi probabilitas unigram. Setiap bobot pertama-tama dinaikkan ke kekuatan distorsi sebelum ditambahkan ke distribusi unigram internal. Hasilnya, distorsi = 1.0 memberikan pengambilan sampel unigram yang teratur (seperti yang ditentukan oleh file vocab), dan distorsi = 0.0 memberikan distribusi yang seragam. |
---|
public static FixedUnigramCandidateSampler.Options numReservedIds (NumReservedIds panjang)
Parameter
jumlahReservedIds | Secara opsional, beberapa ID yang dicadangkan dapat ditambahkan dalam rentang [0, ..., num_reserved_ids) oleh pengguna. Salah satu kasus penggunaannya adalah token kata khusus yang tidak diketahui digunakan sebagai ID 0. ID ini akan memiliki probabilitas pengambilan sampel sebesar 0. |
---|
public static FixedUnigramCandidateSampler.Options numShards (NumShards panjang)
Parameter
jumlah pecahan | Sampler dapat digunakan untuk mengambil sampel dari subset rentang asli untuk mempercepat keseluruhan komputasi melalui paralelisme. Parameter ini (bersama dengan 'shard') menunjukkan jumlah partisi yang digunakan dalam keseluruhan komputasi. |
---|
Output publik < TInt64 > sampel Kandidat ()
Vektor dengan panjang num_sampled, yang setiap elemennya merupakan ID kandidat sampel.
Keluaran publik < TFloat32 > sampledExpectedCount ()
Sebuah vektor dengan panjang num_sampled, untuk setiap kandidat sampel yang mewakili berapa kali kandidat tersebut diharapkan muncul dalam sekumpulan kandidat sampel. Jika unik=benar, maka ini adalah sebuah probabilitas.
public static FixedUnigramCandidateSampler.Options seed (Benih panjang)
Parameter
benih | Jika salah satu seed atau seed2 disetel bukan nol, pembuat nomor acak akan diunggulkan oleh seed yang diberikan. Jika tidak, ia akan diunggulkan dengan benih acak. |
---|
public static FixedUnigramCandidateSampler.Options seed2 (Benih panjang2)
Parameter
benih2 | Benih kedua untuk menghindari benturan benih. |
---|
pecahan TetapUnigramCandidateSampler.Options statis publik (Pecahan panjang)
Parameter
beling | Sampler dapat digunakan untuk mengambil sampel dari subset rentang asli untuk mempercepat keseluruhan komputasi melalui paralelisme. Parameter ini (bersama dengan 'num_shards') menunjukkan nomor partisi tertentu dari operasi sampler, ketika partisi sedang digunakan. |
---|
Keluaran publik < TFloat32 > trueExpectedCount ()
Matriks batch_size * num_true, mewakili berapa kali setiap kandidat diharapkan muncul dalam kumpulan kandidat sampel. Jika unik=benar, maka ini adalah sebuah probabilitas.
unigram TetapUnigramCandidateSampler.Options statis publik (Daftar<Float> unigram)
Parameter
unigram | Daftar jumlah atau probabilitas unigram, satu per ID secara berurutan. Tepatnya salah satu vocab_file dan unigram harus diteruskan ke operasi ini. |
---|
FixedUnigramCandidateSampler.Options vocabFile statis publik (String vocabFile)
Parameter
File kosakata | Setiap baris yang valid dalam file ini (yang harus memiliki format seperti CSV) sesuai dengan ID kata yang valid. ID disusun secara berurutan, dimulai dari num_reserved_ids. Entri terakhir di setiap baris diharapkan berupa nilai yang sesuai dengan hitungan atau probabilitas relatif. Tepatnya salah satu vocab_file dan unigram perlu diteruskan ke operasi ini. |
---|