FixedUnigramCandidateSampler

genel final sınıfı SabitUnigramCandidateSampler

Öğrenilmiş bir unigram dağılımıyla aday örneklemesi için etiketler oluşturur.

Unigram örnekleyici, dağıtımı anında verilerden oluşturmak yerine, bir dosyadan okunan veya bellek içi dizi olarak aktarılan sabit bir unigram dağılımını kullanabilir. Ağırlıklara distorsiyon gücü uygulayarak dağılımı çarpıtma seçeneği de mevcuttur.

Kelime dosyası CSV benzeri formatta olmalı ve son alan kelimeyle ilişkili ağırlık olmalıdır.

Bu operasyon, her parti için tek bir örneklenmiş aday etiket seti seçer.

Parti başına aday örneklemenin avantajları basitlik ve verimli yoğun matris çoğaltma olanağıdır. Dezavantajı ise örneklenen adayların bağlamdan ve gerçek etiketlerden bağımsız olarak seçilmesinin gerekmesidir.

İç İçe Sınıflar

sınıf SabitUnigramCandidateSampler.Options FixedUnigramCandidateSampler için isteğe bağlı özellikler

Sabitler

Sicim OP_NAME Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Genel Yöntemler

statik SabitUnigramCandidateSampler
create ( Kapsam kapsamı, İşlenen < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean benzersiz, Uzun menzilMax, Seçenekler... seçenekler)
Yeni bir FixUnigramCandidateSampler işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.
statik SabitUnigramCandidateSampler.Options
distorsiyon (Kayan distorsiyon)
statik SabitUnigramCandidateSampler.Options
numReservedIds (Uzun numReservedIds)
statik SabitUnigramCandidateSampler.Options
numShards (Uzun numShards)
Çıkış < TInt64 >
örneklenen Adaylar ()
Her öğenin örneklenmiş bir adayın kimliği olduğu num_sampled uzunluğunda bir vektör.
Çıkış < TFloat32 >
sampledExpectedCount ()
Num_sampled uzunluğundaki bir vektör, örneklenen her aday için, adayın örneklenen adaylardan oluşan bir grupta kaç kez ortaya çıkmasının beklendiğini temsil eder.
statik SabitUnigramCandidateSampler.Options
tohum (Uzun tohum)
statik SabitUnigramCandidateSampler.Options
tohum2 (Uzun tohum2)
statik SabitUnigramCandidateSampler.Options
parça (Uzun parça)
Çıkış < TFloat32 >
trueExpectedCount ()
Örneklenmiş adaylardan oluşan bir grupta her bir adayın kaç kez ortaya çıkmasının beklendiğini temsil eden bir parti_boyutu * num_true matrisi.
statik SabitUnigramCandidateSampler.Options
unigramlar (Liste<Float> unigramlar)
statik SabitUnigramCandidateSampler.Options
vocabDosyası (Dize vocabDosyası)

Kalıtsal Yöntemler

Sabitler

genel statik son Dize OP_NAME

Bu operasyonun TensorFlow çekirdek motoru tarafından bilinen adı

Sabit Değer: "FixedUnigramCandidateSampler"

Genel Yöntemler

public static FixUnigramCandidateSampler create ( Kapsam kapsamı, İşlenen < TInt64 > trueClasses, Uzun numTrue, Uzun numSampled, Boolean benzersiz, Uzun menzilMax, Seçenekler... seçenekler)

Yeni bir FixUnigramCandidateSampler işlemini saran bir sınıf oluşturmaya yönelik fabrika yöntemi.

Parametreler
kapsam mevcut kapsam
trueClasses Her satırın karşılık gelen orijinal etiketteki num_true hedef_sınıflarının kimliklerini içerdiği birbatch_size * num_true matrisi.
numTrue Bağlam başına gerçek etiketlerin sayısı.
numSampled Rastgele örneklenecek aday sayısı.
eşsiz Benzersiz doğruysa, bir grupta örneklenen tüm adayların benzersiz olması için reddedilerek örnek alırız. Bu, ret sonrası örnekleme olasılıklarını tahmin etmek için bazı yaklaşımlar gerektirir.
aralıkMaks Örnekleyici [0, range_max) aralığındaki tam sayıları örnekleyecektir.
seçenekler isteğe bağlı nitelik değerlerini taşır
İadeler
  • Yeni bir FixUnigramCandidateSampler örneği

public static SabitUnigramCandidateSampler.Options distorsiyonu (Float distorsiyonu)

Parametreler
çarpıtma Distorsiyon, unigram olasılık dağılımını çarpıtmak için kullanılır. Her ağırlık, dahili unigram dağılımına eklenmeden önce ilk olarak distorsiyonun gücüne yükseltilir. Sonuç olarak, distorsiyon = 1,0, düzenli unigram örneklemeyi (kelime dosyası tarafından tanımlandığı gibi) verir ve distorsiyon = 0,0, düzgün bir dağılım verir.

public static DifferentUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

Parametreler
numReservedIds İsteğe bağlı olarak kullanıcılar tarafından [0, ..., num_reserved_ids) aralığında bazı ayrılmış ID'ler eklenebilir. Bir kullanım durumu, özel bir bilinmeyen kelime belirtecinin ID 0 olarak kullanılmasıdır. Bu ID'lerin örnekleme olasılığı 0 olacaktır.

public static SabitUnigramCandidateSampler.Options numShards (Uzun numShards)

Parametreler
SayıParçaları Paralellik yoluyla tüm hesaplamayı hızlandırmak amacıyla orijinal aralığın bir alt kümesinden örnekleme yapmak için bir örnekleyici kullanılabilir. Bu parametre ('shard' ile birlikte) genel hesaplamada kullanılan bölüm sayısını gösterir.

genel Çıktı < TInt64 > sampledCandidates ()

Her öğenin örneklenmiş bir adayın kimliği olduğu num_sampled uzunluğunda bir vektör.

genel Çıkış < TFloat32 > sampledExpectedCount ()

Num_sampled uzunluğundaki bir vektör, örneklenen her aday için, adayın örneklenen adaylardan oluşan bir grupta kaç kez ortaya çıkmasının beklendiğini temsil eder. Benzersiz=doğru ise bu bir olasılıktır.

public static DifferentUnigramCandidateSampler.Options tohumu (Uzun tohum)

Parametreler
tohum Tohum veya tohum2 sıfırdan farklı bir değere ayarlanmışsa, rastgele sayı üreteci verilen tohum tarafından tohumlanır. Aksi halde rastgele bir tohumla tohumlanır.

public static SabitUnigramCandidateSampler.Options tohum2 (Uzun tohum2)

Parametreler
tohum2 Tohum çarpışmasını önlemek için ikinci bir tohum.

public static DifferentUnigramCandidateSampler.Options parça (Uzun parça)

Parametreler
kırık Paralellik yoluyla tüm hesaplamayı hızlandırmak amacıyla orijinal aralığın bir alt kümesinden örnekleme yapmak için bir örnekleyici kullanılabilir. Bu parametre ('num_shards' ile birlikte), bölümleme kullanıldığında bir örnekleyici işleminin belirli bölüm numarasını gösterir.

genel Çıkış < TFloat32 > trueExpectedCount ()

Örneklenmiş adaylardan oluşan bir grupta her bir adayın kaç kez ortaya çıkmasının beklendiğini temsil eden bir parti_boyutu * num_true matrisi. Benzersiz=doğru ise bu bir olasılıktır.

public staticFixedUnigramCandidateSampler.Options unigramları (List<Float> unigramları)

Parametreler
unigramlar Unigram sayımlarının veya olasılıklarının, kimlik başına sıralı bir şekilde bir listesi. Bu operasyona vocab_file ve unigramlardan tam olarak biri aktarılmalıdır.

public static SabitUnigramCandidateSampler.Options vocabFile (String vocabFile)

Parametreler
kelimeDosyası Bu dosyadaki (CSV benzeri bir formata sahip olması gereken) her geçerli satır, geçerli bir kelime kimliğine karşılık gelir. Kimlikler num_reserved_ids'den başlayarak sıralıdır. Her satırdaki son girişin sayıma veya bağıl olasılığa karşılık gelen bir değer olması beklenir. Bu operasyona vocab_file ve unigramlardan tam olarak birinin aktarılması gerekiyor.