Tạo nhãn để lấy mẫu ứng viên bằng cách phân phối unigram đã học.
Bộ lấy mẫu unigram có thể sử dụng phân phối unigram cố định được đọc từ một tệp hoặc được truyền vào dưới dạng mảng trong bộ nhớ thay vì xây dựng phân phối từ dữ liệu một cách nhanh chóng. Ngoài ra còn có một tùy chọn để làm lệch sự phân bố bằng cách áp dụng công suất biến dạng cho các trọng số.
Tệp từ vựng phải ở định dạng giống như CSV, với trường cuối cùng là trọng số liên quan đến từ.
Đối với mỗi lô, hoạt động này chọn một tập hợp các nhãn ứng cử viên được lấy mẫu.
Ưu điểm của việc lấy mẫu ứng viên theo từng đợt là tính đơn giản và khả năng nhân ma trận dày đặc hiệu quả. Điểm bất lợi là các ứng cử viên được lấy mẫu phải được chọn độc lập với bối cảnh và nhãn thực sự.
Các lớp lồng nhau
lớp học | Đã sửa lỗiUnigramCandidateSampler.Options | Thuộc tính tùy chọn cho FixedUnigramCandidateSampler |
Hằng số
Sợi dây | OP_NAME | Tên của op này, được biết đến bởi công cụ lõi TensorFlow |
Phương pháp công cộng
tĩnh cố địnhUnigramCandidateSampler | tạo ( Phạm vi phạm vi , Toán hạng < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean duy nhất, Long rangeMax, Tùy chọn... tùy chọn) Phương thức xuất xưởng để tạo một lớp bao bọc một thao tác FixUnigramCandidateSampler mới. |
cố định tĩnhUnigramCandidateSampler.Options | biến dạng (biến dạng nổi) |
cố định tĩnhUnigramCandidateSampler.Options | numReservedIds (numReservedIds dài) |
cố định tĩnhUnigramCandidateSampler.Options | numShards (numShards dài) |
Đầu ra < TInt64 > | đã lấy mẫuỨng viên () Một vectơ có độ dài được lấy mẫu bằng số, trong đó mỗi phần tử là ID của một ứng cử viên được lấy mẫu. |
Đầu ra < TFloat32 > | đã lấy mẫuExpectedCount () Một vectơ có độ dài bằng số_sampled, cho mỗi ứng viên được lấy mẫu biểu thị số lần ứng viên đó dự kiến sẽ xuất hiện trong một loạt ứng viên được lấy mẫu. |
cố định tĩnhUnigramCandidateSampler.Options | hạt giống (Hạt dài) |
cố định tĩnhUnigramCandidateSampler.Options | hạt giống2 (Hạt dài2) |
cố định tĩnhUnigramCandidateSampler.Options | mảnh vỡ (Mảnh dài) |
Đầu ra < TFloat32 > | trueExpectedCount () Ma trận batch_size * num_true, biểu thị số lần mỗi ứng viên dự kiến xuất hiện trong một loạt ứng viên được lấy mẫu. |
cố định tĩnhUnigramCandidateSampler.Options | unigram (Danh sách<Float> unigram) |
cố định tĩnhUnigramCandidateSampler.Options | vocabFile (Chuỗi vocabFile) |
Phương pháp kế thừa
Hằng số
Chuỗi cuối cùng tĩnh công khai OP_NAME
Tên của op này, được biết đến bởi công cụ lõi TensorFlow
Phương pháp công cộng
tĩnh công khai FixUnigramCandidateSampler tạo (Phạm vi phạm vi, Toán hạng < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean duy nhất, Long rangeMax, Tùy chọn... tùy chọn)
Phương thức xuất xưởng để tạo một lớp bao bọc một thao tác FixUnigramCandidateSampler mới.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
đúnglớp học | Ma trận batch_size * num_true, trong đó mỗi hàng chứa ID của num_true target_classes trong nhãn gốc tương ứng. |
số đúng | Số lượng nhãn thực sự cho mỗi ngữ cảnh. |
numĐã lấy mẫu | Số lượng ứng viên lấy mẫu ngẫu nhiên. |
độc nhất | Nếu duy nhất là đúng, chúng tôi lấy mẫu với sự từ chối, sao cho tất cả các ứng cử viên được lấy mẫu trong một đợt là duy nhất. Điều này đòi hỏi một số phép tính gần đúng để ước tính xác suất lấy mẫu sau loại bỏ. |
phạm viMax | Bộ lấy mẫu sẽ lấy mẫu các số nguyên từ khoảng [0, range_max). |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của FixUnigramCandidateSampler
biến dạng tĩnh công khai FixUnigramCandidateSampler.Options (Biến dạng nổi)
Thông số
méo mó | Sự biến dạng được sử dụng để làm lệch phân bố xác suất unigram. Mỗi trọng số trước tiên được nâng lên tới mức độ biến dạng trước khi thêm vào phân phối unigram bên trong. Kết quả là, độ méo = 1,0 cho phép lấy mẫu unigram thông thường (như được xác định bởi tệp từ vựng) và độ méo = 0,0 mang lại sự phân bố đồng đều. |
---|
tĩnh công khai FixUnigramCandidateSampler.Options numReservedIds (numReservedIds dài)
Thông số
numReservedId | Người dùng có thể tùy chọn thêm một số ID dành riêng trong phạm vi [0, ..., num_reserved_ids). Một trường hợp sử dụng là mã thông báo từ đặc biệt không xác định được sử dụng làm ID 0. Những ID này sẽ có xác suất lấy mẫu là 0. |
---|
tĩnh công khai FixUnigramCandidateSampler.Options numShards (numShards dài)
Thông số
số mảnh vỡ | Một bộ lấy mẫu có thể được sử dụng để lấy mẫu từ một tập hợp con của phạm vi ban đầu nhằm tăng tốc toàn bộ quá trình tính toán thông qua tính song song. Tham số này (cùng với 'phân đoạn') cho biết số lượng phân vùng đang được sử dụng trong quá trình tính toán tổng thể. |
---|
Đầu ra công khai < TInt64 > sampledCandidates ()
Một vectơ có độ dài được lấy mẫu bằng số, trong đó mỗi phần tử là ID của một ứng cử viên được lấy mẫu.
Đầu ra công khai < TFloat32 > sampledExpectedCount ()
Một vectơ có độ dài bằng số_sampled, cho mỗi ứng viên được lấy mẫu biểu thị số lần ứng viên đó dự kiến sẽ xuất hiện trong một loạt ứng viên được lấy mẫu. Nếu duy nhất=true thì đây là một xác suất.
public static Cố địnhUnigramCandidateSampler.Options hạt giống (Hạt giống dài)
Thông số
hạt giống | Nếu hạt giống hoặc hạt giống2 được đặt khác 0, thì bộ tạo số ngẫu nhiên sẽ được gieo hạt giống đã cho. Nếu không, nó sẽ được gieo bởi một hạt giống ngẫu nhiên. |
---|
tĩnh công khai FixUnigramCandidateSampler.Optionsseed2 ( Hạt giống dài2)
Thông số
hạt giống2 | Hạt giống thứ hai để tránh va chạm hạt giống. |
---|
phân đoạn tĩnh công khai FixUnigramCandidateSampler.Options (Phân đoạn dài)
Thông số
mảnh vỡ | Một bộ lấy mẫu có thể được sử dụng để lấy mẫu từ một tập hợp con của phạm vi ban đầu nhằm tăng tốc toàn bộ quá trình tính toán thông qua tính song song. Tham số này (cùng với 'num_shards') cho biết số phân vùng cụ thể của hoạt động lấy mẫu khi phân vùng đang được sử dụng. |
---|
Đầu ra công khai < TFloat32 > trueExpectedCount ()
Ma trận batch_size * num_true, biểu thị số lần mỗi ứng viên dự kiến xuất hiện trong một loạt ứng viên được lấy mẫu. Nếu duy nhất=true thì đây là một xác suất.
unigram tĩnh công khai FixedUnigramCandidateSampler.Options (Danh sách<Float> unigram)
Thông số
unigram | Danh sách số lượng hoặc xác suất unigram, mỗi số một ID theo thứ tự tuần tự. Chính xác một trong số vocab_file và unigram sẽ được chuyển cho op này. |
---|
tĩnh công khai FixUnigramCandidateSampler.Options vocabFile (Chuỗi vocabFile)
Thông số
tập tin từ vựng | Mỗi dòng hợp lệ trong tệp này (phải có định dạng giống CSV) tương ứng với một ID từ hợp lệ. ID được sắp xếp theo thứ tự, bắt đầu từ num_reserved_ids. Mục cuối cùng trong mỗi dòng dự kiến sẽ là một giá trị tương ứng với số lượng hoặc xác suất tương đối. Chính xác một trong số vocab_file và unigram cần được chuyển tới op này. |
---|