FixedUnigramCandidateSampler

الفئة النهائية العامة FixedUnigramCandidateSampler

يُنشئ تسميات لأخذ العينات المرشحة باستخدام توزيع أحادي جرام مكتسب.

يمكن لأخذ عينات unigram استخدام توزيع unigram ثابت للقراءة من ملف أو تمريره كمصفوفة في الذاكرة بدلاً من إنشاء التوزيع من البيانات بسرعة. يوجد أيضًا خيار لتحريف التوزيع من خلال تطبيق قوة تشويه على الأوزان.

يجب أن يكون ملف المفردات بتنسيق CSV، على أن يكون الحقل الأخير هو الوزن المرتبط بالكلمة.

لكل دفعة، تختار هذه العملية مجموعة واحدة من عينات التسميات المرشحة.

تتمثل مزايا أخذ عينات المرشحين لكل دفعة في البساطة وإمكانية مضاعفة المصفوفة الكثيفة بكفاءة. والعيب هو أنه يجب اختيار المرشحين في العينة بشكل مستقل عن السياق وعن التسميات الحقيقية.

فئات متداخلة

فصل FixedUnigramCandidateSampler.Options السمات الاختيارية لـ FixedUnigramCandidateSampler

الثوابت

خيط OP_NAME اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

الأساليب العامة

ثابت FixedUnigramCandidateSampler
إنشاء (نطاق النطاق ، المعامل < TInt64 > trueClasses، Long numTrue، Long numSampled، Boolean Unique، Long rangeMax، Options... options)
طريقة المصنع لإنشاء فئة تلتف حول عملية FixedUnigramCandidateSampler جديدة.
ثابت FixedUnigramCandidateSampler.Options
تشويه (تشويه تعويم)
ثابت FixedUnigramCandidateSampler.Options
numReservedIds (numReservedIds الطويلة)
ثابت FixedUnigramCandidateSampler.Options
numShards (numShards) طويلة
الإخراج <TInt64>
المرشحين الذين تم أخذ عينات منهم ()
متجه بطول num_sampled، حيث يكون كل عنصر هو معرف المرشح الذي تم أخذ عينات منه.
الإخراج <TFloat32>
سامبليدبكتيدكونت ()
متجه بطول num_sampled، لكل مرشح تم أخذ عينات منه يمثل عدد المرات التي من المتوقع أن يظهر فيها المرشح في مجموعة من المرشحين الذين تم أخذ عينات منهم.
ثابت FixedUnigramCandidateSampler.Options
بذرة (بذور طويلة)
ثابت FixedUnigramCandidateSampler.Options
بذرة 2 (بذرة طويلة 2)
ثابت FixedUnigramCandidateSampler.Options
شظية (شظية طويلة)
الإخراج <TFloat32>
العدد الحقيقي المتوقع ()
مصفوفة Batch_size * num_true، تمثل عدد المرات التي من المتوقع أن يحدث فيها كل مرشح في مجموعة من المرشحين الذين تم أخذ عينات منهم.
ثابت FixedUnigramCandidateSampler.Options
unigrams (قائمة<Float> unigrams)
ثابت FixedUnigramCandidateSampler.Options
ملف vocab (ملف سلسلة vocab)

الطرق الموروثة

الثوابت

السلسلة النهائية الثابتة العامة OP_NAME

اسم هذه العملية كما هو معروف بواسطة محرك TensorFlow الأساسي

القيمة الثابتة: "FixedUnigramCandidateSampler"

الأساليب العامة

إنشاء FixedUnigramCandidateSampler ثابت عام ( نطاق النطاق ، المعامل < TInt64 > trueClasses، Long numTrue، Long numSampled، Boolean Unique، Long rangeMax، Options... options)

طريقة المصنع لإنشاء فئة تلتف حول عملية FixedUnigramCandidateSampler جديدة.

حدود
نِطَاق النطاق الحالي
trueClasses مصفوفة Batch_size * num_true، حيث يحتوي كل صف على معرفات num_true target_classes في التسمية الأصلية المقابلة.
numTrue عدد التسميات الحقيقية لكل سياق.
numSampled عدد المرشحين للعينة العشوائية
فريد إذا كان فريدًا صحيحًا، فإننا نأخذ عينة مع الرفض، بحيث يكون جميع المرشحين الذين تم أخذ عينات منهم في الدفعة فريدين. ويتطلب ذلك بعض التقريب لتقدير احتمالات أخذ العينات بعد الرفض.
rangeMax سيقوم جهاز أخذ العينات بأخذ عينات من الأعداد الصحيحة من الفاصل الزمني [0، range_max).
خيارات يحمل قيم السمات الاختيارية
عائدات
  • مثيل جديد لـ FixedUnigramCandidateSampler

تشويه ثابت عام FixedUnigramCandidateSampler.Options (تشويه تعويم)

حدود
تشوه يتم استخدام التشويه لتحريف توزيع احتمالية unigram. يتم رفع كل وزن أولاً إلى قوة التشويه قبل إضافته إلى توزيع الأحادي الداخلي. ونتيجة لذلك، فإن التشويه = 1.0 يعطي عينة منتظمة من أحادي جرام (كما هو محدد في ملف المفردات)، والتشويه = 0.0 يعطي توزيعًا موحدًا.

ثابت عام FixedUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

حدود
numReservedIds اختياريًا، يمكن إضافة بعض المعرفات المحجوزة في النطاق [0، ...، num_reserved_ids) بواسطة المستخدمين. إحدى حالات الاستخدام هي أنه يتم استخدام رمز مميز لكلمة غير معروفة كمعرف 0. سيكون لهذه المعرفات احتمالية أخذ العينات 0.

ثابت عام FixedUnigramCandidateSampler.Options numShards (numShards طويلة)

حدود
numShards يمكن استخدام أداة أخذ العينات لأخذ عينات من مجموعة فرعية من النطاق الأصلي من أجل تسريع العملية الحسابية بأكملها من خلال التوازي. تشير هذه المعلمة (مع 'shard') إلى عدد الأقسام المستخدمة في الحساب الإجمالي.

الإخراج العام <TInt64> عينات المرشحين ()

متجه بطول num_sampled، حيث يكون كل عنصر هو معرف المرشح الذي تم أخذ عينات منه.

الإخراج العام <TFloat32> SampledExpectedCount ()

متجه بطول num_sampled، لكل مرشح تم أخذ عينات منه يمثل عدد المرات التي من المتوقع أن يظهر فيها المرشح في مجموعة من المرشحين الذين تم أخذ عينات منهم. إذا كان فريدًا = صحيح، فهذا احتمال.

بذرة FixedUnigramCandidateSampler.Options الثابتة العامة (بذرة طويلة)

حدود
بذرة إذا تم تعيين البذرة أو البذرة 2 على قيمة غير صفرية، فسيتم تصنيف مولد الأرقام العشوائية بواسطة البذرة المعطاة. خلاف ذلك، يتم زرعها بواسطة بذرة عشوائية.

ثابت عام FixedUnigramCandidateSampler.Options بذرة 2 (بذرة طويلة 2)

حدود
البذور2 بذرة ثانية لتجنب اصطدام البذور.

ثابت عام FixedUnigramCandidateSampler.Options shard (جزء طويل)

حدود
شظية يمكن استخدام أداة أخذ العينات لأخذ عينات من مجموعة فرعية من النطاق الأصلي من أجل تسريع العملية الحسابية بأكملها من خلال التوازي. تشير هذه المعلمة (مع 'num_shards') إلى رقم القسم المحدد لعملية أخذ العينات، عند استخدام التقسيم.

الإخراج العام <TFloat32> trueExpectedCount ()

مصفوفة Batch_size * num_true، تمثل عدد المرات التي من المتوقع أن يحدث فيها كل مرشح في مجموعة من المرشحين الذين تم أخذ عينات منهم. إذا كان فريدًا = صحيح، فهذا احتمال.

الثابتة العامة FixedUnigramCandidateSampler.Options unigrams (قائمة<Float> unigrams)

حدود
com.unigrams قائمة بأعداد أو احتمالات unigram، واحد لكل معرف بترتيب تسلسلي. يجب تمرير واحد بالضبط من vocab_file وunigrams إلى هذا المرجع.

ثابت عام FixedUnigramCandidateSampler.Options vocabFile (سلسلة vocabFile)

حدود
vocabFile كل سطر صالح في هذا الملف (الذي يجب أن يكون بتنسيق CSV) يتوافق مع معرف كلمة صالح. المعرفات مرتبة تسلسليًا، بدءًا من num_reserved_ids. من المتوقع أن يكون الإدخال الأخير في كل سطر قيمة مقابلة للعدد أو الاحتمال النسبي. يجب تمرير واحد بالضبط من vocab_file وunigrams إلى هذا المرجع.