FixedUnigramCandidateSampler

คลาสสุดท้ายสาธารณะ FixUnigramCandidateSampler

สร้างป้ายกำกับสำหรับการสุ่มตัวอย่างผู้สมัครด้วยการแจกแจงแบบยูนิแกรมที่เรียนรู้

ตัวเก็บตัวอย่างยูนิแกรมสามารถใช้การกระจายยูนิแกรมแบบคงที่อ่านจากไฟล์หรือส่งผ่านเป็นอาร์เรย์ในหน่วยความจำแทนการสร้างการกระจายจากข้อมูลได้ทันที นอกจากนี้ยังมีตัวเลือกในการบิดเบือนการกระจายโดยการใช้อำนาจการบิดเบือนกับตุ้มน้ำหนัก

ไฟล์คำศัพท์ควรอยู่ในรูปแบบ CSV โดยช่องสุดท้ายคือน้ำหนักที่เกี่ยวข้องกับคำนั้น

สำหรับแต่ละชุด ฝ่ายปฏิบัติการนี้จะเลือกชุดป้ายกำกับตัวอย่างที่สุ่มตัวอย่างชุดเดียว

ข้อดีของการเลือกตัวอย่างต่อชุดคือความเรียบง่ายและความเป็นไปได้ของการคูณเมทริกซ์หนาแน่นอย่างมีประสิทธิภาพ ข้อเสียคือต้องเลือกผู้สมัครตัวอย่างโดยอิสระจากบริบทและป้ายกำกับที่แท้จริง

คลาสที่ซ้อนกัน

ระดับ แก้ไข UnigramCandidateSampler.Options แอ็ตทริบิวต์ทางเลือกสำหรับ FixedUnigramCandidateSampler

ค่าคงที่

สตริง OP_NAME ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

วิธีการสาธารณะ

คงคง FixedUnigramCandidateSampler
สร้าง (ขอบเขต ขอบเขต ตัวดำเนินการ < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean Unique, Long rangeMax, Options... options)
วิธีการจากโรงงานเพื่อสร้างคลาสที่ห่อการดำเนินการ FixUnigramCandidateSampler ใหม่
คงคง FixedUnigramCandidateSampler.Options
การบิดเบือน (การบิดเบือนแบบลอย)
คงคง FixedUnigramCandidateSampler.Options
numReservedIds (ยาว numReservedIds)
คงคง FixedUnigramCandidateSampler.Options
numShards (ยาว numShards)
เอาท์พุต <TInt64>
ผู้สมัครตัวอย่าง ()
เวกเตอร์ที่มีความยาว num_sampled ซึ่งแต่ละองค์ประกอบเป็น ID ของตัวเลือกที่สุ่มตัวอย่าง
เอาท์พุต < TFloat32 >
ตัวอย่างที่คาดหวังจำนวน ()
เวกเตอร์ที่มีความยาว num_sampled สำหรับผู้สมัครที่ถูกสุ่มตัวอย่างแต่ละตัว ซึ่งแสดงถึงจำนวนครั้งที่ผู้สมัครคาดว่าจะเกิดขึ้นในชุดของผู้สมัครที่ถูกสุ่มตัวอย่าง
คงคง FixedUnigramCandidateSampler.Options
เมล็ด (เมล็ดยาว)
คงคง FixedUnigramCandidateSampler.Options
เมล็ด2 (เมล็ดยาว2)
คงคง FixedUnigramCandidateSampler.Options
เศษ (เศษยาว)
เอาท์พุต < TFloat32 >
trueExpectedCount ()
เมทริกซ์batch_size * num_true แสดงถึงจำนวนครั้งที่ผู้สมัครแต่ละคนคาดว่าจะเกิดขึ้นในชุดของผู้สมัครตัวอย่าง
คงคง FixedUnigramCandidateSampler.Options
ยูนิแกรม (รายการ<Float> ยูนิแกรม)
คงคง FixedUnigramCandidateSampler.Options
vocabFile (ไฟล์คำศัพท์สตริง)

วิธีการสืบทอด

ค่าคงที่

สตริงสุดท้ายแบบคงที่สาธารณะ OP_NAME

ชื่อของ op นี้ ซึ่งรู้จักกันในชื่อของเอ็นจิ้นหลัก TensorFlow

ค่าคงที่: "FixedUnigramCandidateSampler"

วิธีการสาธารณะ

คงสาธารณะ คง สร้าง FixedUnigramCandidateSampler (ขอบเขต ขอบเขต ตัวดำเนินการ < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean Unique, Long rangeMax, Options... options)

วิธีการจากโรงงานเพื่อสร้างคลาสที่ห่อการดำเนินการ FixUnigramCandidateSampler ใหม่

พารามิเตอร์
ขอบเขต ขอบเขตปัจจุบัน
ทรูคลาส เมทริกซ์ bat_size * num_true ซึ่งแต่ละแถวมี ID ของ num_true target_classes ในป้ายกำกับดั้งเดิมที่เกี่ยวข้อง
numTrue จำนวนป้ายกำกับที่แท้จริงต่อบริบท
จำนวนตัวอย่าง จำนวนผู้สมัครที่จะสุ่มตัวอย่าง
มีเอกลักษณ์ หากค่าไม่ซ้ำกันเป็นจริง เราจะสุ่มตัวอย่างด้วยการปฏิเสธ เพื่อให้ผู้สมัครสุ่มตัวอย่างทั้งหมดในแบตช์ไม่ซ้ำกัน ซึ่งต้องมีการประมาณเพื่อประเมินความน่าจะเป็นของการสุ่มตัวอย่างหลังการปฏิเสธ
ช่วงสูงสุด ตัวเก็บตัวอย่างจะสุ่มตัวอย่างจำนวนเต็มจากช่วง [0, range_max)
ตัวเลือก มีค่าแอตทริบิวต์ทางเลือก
การส่งคืน
  • อินสแตนซ์ใหม่ของ FixedUnigramCandidateSampler

การบิดเบือน คงสาธารณะ คง UnigramCandidateSampler.Options (ความผิดเพี้ยนแบบลอย)

พารามิเตอร์
การบิดเบือน การบิดเบือนจะใช้เพื่อบิดเบือนการแจกแจงความน่าจะเป็นแบบยูนิแกรม ตุ้มน้ำหนักแต่ละอันจะถูกยกขึ้นตามกำลังของการบิดเบือนก่อนจึงจะเพิ่มไปยังการแจกแจงแบบยูนิแกรมภายใน ผลก็คือ ความบิดเบี้ยว = 1.0 ให้การสุ่มตัวอย่างแบบยูนิแกรมปกติ (ตามที่กำหนดโดยไฟล์คำศัพท์) และการบิดเบือน = 0.0 ให้การแจกแจงแบบสม่ำเสมอ

สาธารณะคงคง UnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

พารามิเตอร์
numReservedIds นอกจากนี้ ผู้ใช้ยังสามารถเพิ่ม ID ที่สงวนไว้บางส่วนในช่วง [0, ..., num_reserved_ids) ได้ กรณีการใช้งานประการหนึ่งคือมีการใช้โทเค็นคำพิเศษที่ไม่รู้จักเป็น ID 0 รหัสเหล่านี้จะมีความน่าจะเป็นในการสุ่มตัวอย่างเป็น 0

สาธารณะคงที่คงที่ UnigramCandidateSampler.Options numShards (Long numShards)

พารามิเตอร์
numShards เครื่องเก็บตัวอย่างสามารถใช้เพื่อสุ่มตัวอย่างจากชุดย่อยของช่วงดั้งเดิมเพื่อเร่งความเร็วการคำนวณทั้งหมดผ่านการขนาน พารามิเตอร์นี้ (ร่วมกับ 'shard') ระบุจำนวนพาร์ติชันที่ใช้ในการคำนวณโดยรวม

เอาท์พุท สาธารณะ <TInt64> SampledCandidates ()

เวกเตอร์ที่มีความยาว num_sampled ซึ่งแต่ละองค์ประกอบเป็น ID ของตัวเลือกที่สุ่มตัวอย่าง

เอาท์พุท สาธารณะ < TFloat32 > SampledExpectedCount ()

เวกเตอร์ที่มีความยาว num_sampled สำหรับผู้สมัครที่ถูกสุ่มตัวอย่างแต่ละตัว ซึ่งแสดงถึงจำนวนครั้งที่ผู้สมัครคาดว่าจะเกิดขึ้นในชุดของผู้สมัครที่ถูกสุ่มตัวอย่าง หากไม่ซ้ำกัน=จริง นี่คือความน่าจะเป็น

เมล็ดพันธุ์ คงสาธารณะ FixUnigramCandidateSampler.Options (เมล็ดพันธุ์ยาว)

พารามิเตอร์
เมล็ดพันธุ์ หากเมล็ดพืชหรือเมล็ดพืช2 ถูกตั้งค่าไม่เป็นศูนย์ เครื่องกำเนิดตัวเลขสุ่มจะถูกเพาะโดยเมล็ดที่ให้มา มิฉะนั้นจะถูกเพาะโดยเมล็ดแบบสุ่ม

สาธารณะคงคงที่ UnigramCandidateSampler.Options seed2 (Long seed2)

พารามิเตอร์
เมล็ดพันธุ์2 เมล็ดที่สองเพื่อหลีกเลี่ยงการชนกันของเมล็ด

สาธารณะ คง ส่วน ถาวร FixUnigramCandidateSampler.Options (ส่วนยาว)

พารามิเตอร์
เศษ เครื่องเก็บตัวอย่างสามารถใช้เพื่อสุ่มตัวอย่างจากชุดย่อยของช่วงดั้งเดิมเพื่อเร่งความเร็วการคำนวณทั้งหมดผ่านการขนาน พารามิเตอร์นี้ (ร่วมกับ 'num_shards') ระบุหมายเลขพาร์ติชันเฉพาะของแซมเพลอร์ op เมื่อใช้การแบ่งพาร์ติชัน

เอาท์พุท สาธารณะ < TFloat32 > trueExpectedCount ()

เมทริกซ์batch_size * num_true แสดงถึงจำนวนครั้งที่ผู้สมัครแต่ละคนคาดว่าจะเกิดขึ้นในชุดของผู้สมัครตัวอย่าง หากไม่ซ้ำกัน=จริง นี่คือความน่าจะเป็น

สาธารณะ คง Unigrams คง UnigramCandidateSampler.Options (รายการ <Float> unigrams)

พารามิเตอร์
ยูนิแกรม รายการจำนวนยูนิแกรมหรือความน่าจะเป็น หนึ่งรายการต่อ ID ตามลำดับ ควรส่ง vocab_file และ unigrams หนึ่งรายการไปยัง op นี้

สาธารณะคงที่คงที่ UnigramCandidateSampler.Options vocabFile (สตริง vocabFile)

พารามิเตอร์
vocabFile แต่ละบรรทัดที่ถูกต้องในไฟล์นี้ (ซึ่งควรมีรูปแบบคล้าย CSV) สอดคล้องกับรหัสคำที่ถูกต้อง รหัสจะเรียงลำดับตามลำดับ โดยเริ่มจาก num_reserved_ids รายการสุดท้ายในแต่ละบรรทัดคาดว่าจะเป็นค่าที่สอดคล้องกับการนับหรือความน่าจะเป็นแบบสัมพันธ์ ต้องส่ง vocab_file และ unigrams หนึ่งรายการไปยัง op นี้