FixedUnigramCandidateSampler

کلاس نهایی عمومی FixedUnigramCandidateSampler

برچسب‌هایی را برای نمونه‌گیری کاندید با توزیع یک‌گرم آموخته‌شده تولید می‌کند.

یک نمونه‌گر یونیگرام می‌تواند از توزیع ثابت یونیگرام که از یک فایل خوانده می‌شود یا به‌عنوان آرایه‌ای در حافظه ارسال می‌شود، به جای ایجاد توزیع از داده‌های در حال پرواز، استفاده کند. همچنین گزینه ای برای کج کردن توزیع با اعمال قدرت اعوجاج به وزنه ها وجود دارد.

فایل واژگان باید در قالب CSV مانند باشد و آخرین فیلد وزن مرتبط با کلمه باشد.

برای هر دسته، این عملیات یک مجموعه واحد از برچسب های کاندید نمونه برداری شده را انتخاب می کند.

از مزایای کاندیدهای نمونه برداری در هر دسته، سادگی و امکان ضرب ماتریس متراکم کارآمد است. نقطه ضعف این است که نامزدهای نمونه باید مستقل از زمینه و برچسب های واقعی انتخاب شوند.

کلاس های تو در تو

کلاس FixedUnigramCandidateSampler.Options ویژگی های اختیاری برای FixedUnigramCandidateSampler

ثابت ها

رشته OP_NAME نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

روش های عمومی

استاتیک FixedUnigramCandidateSampler
ایجاد ( scope scope، Operand < TINT64 > trueClasses، Long numTrue، Long numSampled، Boolean منحصر به فرد، Long rangeMax، Options... گزینه ها)
روش کارخانه برای ایجاد کلاسی که یک عملیات جدید FixedUnigramCandidateSampler را بسته بندی می کند.
ثابت FixedUnigramCandidateSampler.Options
اعوجاج (اعوجاج شناور)
ثابت FixedUnigramCandidateSampler.Options
numReservedIds (Long numReservedIds)
ثابت FixedUnigramCandidateSampler.Options
numShards (numShards طولانی)
خروجی < TINT64 >
نمونه کاندیدها ()
بردار طول num_sampled، که در آن هر عنصر شناسه یک کاندید نمونه است.
خروجی < TFloat32 >
sampledExpectedCount ()
بردار طول num_sampled، برای هر کاندید نمونه گیری شده نشان دهنده تعداد دفعاتی است که انتظار می رود کاندید در دسته ای از کاندیداهای نمونه گیری رخ دهد.
ثابت FixedUnigramCandidateSampler.Options
دانه (دانه بلند)
ثابت FixedUnigramCandidateSampler.Options
دانه 2 (دانه بلند 2)
ثابت FixedUnigramCandidateSampler.Options
خرده (خرده بلند)
خروجی < TFloat32 >
trueExpectedCount ()
یک ماتریس batch_size * num_true، نشان دهنده تعداد دفعاتی است که انتظار می‌رود هر نامزد در دسته‌ای از نامزدهای نمونه‌گیری رخ دهد.
ثابت FixedUnigramCandidateSampler.Options
unigrams (List<Float> unigrams)
ثابت FixedUnigramCandidateSampler.Options
vocabFile (رشته vocabFile)

روش های ارثی

ثابت ها

رشته نهایی ثابت عمومی OP_NAME

نام این عملیات، همانطور که توسط موتور هسته TensorFlow شناخته می شود

مقدار ثابت: "FixedUnigramCandidateSampler"

روش های عمومی

استاتیک عمومی FixedUnigramCandidateSampler ایجاد ( Scope scope، Operand < TInt64 > trueClasses، Long numTrue، Long numSampled، Boolean منحصر به فرد، Long rangeMax، Options... گزینه ها)

روش کارخانه برای ایجاد کلاسی که یک عملیات جدید FixedUnigramCandidateSampler را بسته بندی می کند.

مولفه های
محدوده محدوده فعلی
trueClasses یک ماتریس batch_size * num_true، که در آن هر ردیف شامل شناسه های num_true target_classes در برچسب اصلی مربوطه است.
numTrue تعداد برچسب‌های واقعی در هر زمینه.
numSampled تعداد داوطلبان نمونه گیری تصادفی
منحصر بفرد اگر یکتا درست باشد، نمونه برداری را با رد انجام می دهیم، به طوری که همه نامزدهای نمونه در یک دسته منحصر به فرد هستند. این نیاز به تقریبی برای تخمین احتمالات نمونه برداری پس از رد دارد.
محدوده حداکثر نمونه‌بردار اعداد صحیح را از بازه [0، range_max نمونه‌برداری می‌کند.
گزینه ها مقادیر ویژگی های اختیاری را حمل می کند
برمی گرداند
  • یک نمونه جدید از FixedUnigramCandidateSampler

استاتیک عمومی FixedUnigramCandidateSampler.Options distortion (اعوجاج شناور)

مولفه های
اعوجاج اعوجاج برای انحراف توزیع احتمال یک گرم استفاده می شود. هر وزن ابتدا قبل از اضافه شدن به توزیع یونیگرم داخلی به قدرت اعوجاج افزایش می یابد. در نتیجه، اعوجاج = 1.0 نمونه گیری unigram منظم (همانطور که توسط فایل vocab تعریف شده است) و اعوجاج = 0.0 توزیع یکنواختی را ارائه می دهد.

ثابت عمومی FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

مولفه های
numReservedIds به صورت اختیاری، برخی از شناسه های رزرو شده را می توان در محدوده [0، ...، num_reserved_ids) توسط کاربران اضافه کرد. یک مورد استفاده این است که یک رمز کلمه ناشناخته خاص به عنوان ID 0 استفاده می شود. این شناسه ها احتمال نمونه برداری 0 خواهند داشت.

استاتیک عمومی FixedUnigramCandidateSampler.Options numShards (numShards طولانی)

مولفه های
numShards نمونه‌بردار را می‌توان برای نمونه‌برداری از زیر مجموعه‌ای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازی‌سازی استفاده کرد. این پارامتر (همراه با 'shard') تعداد پارتیشن هایی را نشان می دهد که در محاسبات کلی استفاده می شوند.

خروجی عمومی < TINT64 > sampledCandidates ()

بردار طول num_sampled، که در آن هر عنصر شناسه یک کاندید نمونه است.

خروجی عمومی < TFloat32 > sampledExpectedCount ()

بردار طول num_sampled، برای هر کاندید نمونه گیری شده نشان دهنده تعداد دفعاتی است که انتظار می رود کاندید در دسته ای از کاندیداهای نمونه گیری رخ دهد. اگر منحصر به فرد = درست است، پس این یک احتمال است.

استاتیک عمومی FixedUnigramCandidateSampler.Options seed (Long seed)

مولفه های
دانه اگر seed یا seed2 غیر صفر باشد، مولد اعداد تصادفی توسط دانه داده شده بذر می شود. در غیر این صورت، توسط یک بذر تصادفی بذر می شود.

عمومی ثابت FixedUnigramCandidateSampler.Options seed2 (Long seed2)

مولفه های
دانه 2 دانه دوم برای جلوگیری از برخورد دانه.

استاتیک عمومی FixedUnigramCandidateSampler.Shard Options (Long Shard)

مولفه های
تکه شکسته نمونه‌بردار را می‌توان برای نمونه‌برداری از زیر مجموعه‌ای از محدوده اصلی به منظور سرعت بخشیدن به کل محاسبات از طریق موازی‌سازی استفاده کرد. این پارامتر (همراه با 'num_shards') شماره پارتیشن خاص یک نمونه کار را در هنگام استفاده از پارتیشن بندی نشان می دهد.

خروجی عمومی < TFloat32 > trueExpectedCount ()

یک ماتریس batch_size * num_true، نشان دهنده تعداد دفعاتی است که انتظار می‌رود هر نامزد در دسته‌ای از نامزدهای نمونه‌گیری رخ دهد. اگر منحصر به فرد = درست است، پس این یک احتمال است.

ثابت عمومی FixedUnigramCandidateSampler.Options unigrams (List<Float> unigrams)

مولفه های
یک گرم فهرستی از تعداد یا احتمالات یونیگرام، یکی در هر شناسه به ترتیب متوالی. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود.

استاتیک عمومی FixedUnigramCandidateSampler.Options vocabFile (String vocabFile)

مولفه های
vocabFile هر خط معتبر در این فایل (که باید قالبی شبیه CSV داشته باشد) با شناسه کلمه معتبر مطابقت دارد. شناسه ها به ترتیب ترتیب هستند و از num_reserved_ids شروع می شوند. انتظار می رود آخرین ورودی در هر خط مقداری باشد که با تعداد یا احتمال نسبی مطابقت دارد. دقیقاً یکی از vocab_file و unigram ها باید به این گزینه منتقل شود.