Đưa ra một đường dẫn đến các tệp từ vựng mới và cũ, trả về một Tensor ánh xạ lại của
length `num_new_vocab`, trong đó `remapping[i]` chứa số hàng trong từ vựng cũ tương ứng với hàng `i` trong từ vựng mới (bắt đầu từ dòng `new_vocab_offset` và lên đến các thực thể `num_new_vocab`) hoặc `- 1` nếu mục `i` trong từ vựng mới không có trong từ vựng cũ. Từ vựng cũ bị hạn chế ở các mục `old_vocab_size` đầu tiên nếu `old_vocab_size` không phải là giá trị mặc định là -1.
`num_vocab_offset` cho phép sử dụng trong trường hợp biến được phân vùng và thường phải được đặt thông qua việc kiểm tra thông tin phân vùng. Định dạng của tệp phải là tệp văn bản, mỗi dòng chứa một thực thể duy nhất trong từ vựng.
Ví dụ: với `new_vocab_file` một tệp văn bản chứa từng thành phần sau trên một dòng: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, ánh xạ lại được trả về sẽ là `[0, -1, 2]`.
Op cũng trả về số lượng mục trong từ vựng mới có trong từ vựng cũ, được sử dụng để tính số lượng giá trị cần khởi tạo trong ánh xạ lại ma trận trọng số
Chức năng này có thể được sử dụng để ánh xạ lại cả từ vựng hàng (thường là tính năng) và từ vựng cột (thường là lớp) từ các điểm kiểm tra TensorFlow. Lưu ý rằng logic phân vùng dựa trên các từ vựng liền kề tương ứng với các biến được phân vùng theo div. Hơn nữa, ánh xạ lại cơ bản sử dụng IndexTable (trái ngược với CuckooTable không chính xác), vì vậy mã máy khách nên sử dụng index_table_from_file() tương ứng như khung FeatureColumn (ngược lại với tf.feature_to_id(), sử dụng CuckooTable).
Các lớp lồng nhau
lớp học | TạoVocabRemapping.Options | Các thuộc tính tùy chọn cho GenerateVocabRemapping |
Hằng số
Sợi dây | OP_NAME | Tên của op này, được biết đến bởi công cụ lõi TensorFlow |
Phương pháp công khai
Tạo bản đồ lại từ vựng tĩnh | |
Đầu ra < TInt32 > | numHiện tại () Số mục từ vựng mới được tìm thấy trong từ vựng cũ. |
tĩnh GeneVocabRemapping.Options | oldVocabSize (Kích thước oldVocabSize dài) |
Đầu ra < TInt64 > | ánh xạ lại () Một Tensor có độ dài num_new_vocab trong đó phần tử tại chỉ mục i bằng ID cũ ánh xạ tới ID mới i. |
Phương pháp kế thừa
Hằng số
Chuỗi cuối cùng tĩnh công khai OP_NAME
Tên của op này, được biết đến bởi công cụ lõi TensorFlow
Phương pháp công khai
public static GeneraVocabRemapping tạo ( Phạm vi phạm vi, Toán hạng < TString > newVocabFile, Toán hạng < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Tùy chọn... tùy chọn)
Phương thức xuất xưởng để tạo một lớp bao gồm thao tác TạoVocabRemapping mới.
Thông số
phạm vi | phạm vi hiện tại |
---|---|
tập tin từ vựng mới | Đường dẫn tới file từ vựng mới. |
tập tin từ vựng cũ | Đường dẫn tới file vocab cũ. |
từ vựng mớiOffset | Có bao nhiêu mục trong file vocab mới để bắt đầu đọc. |
numNewTừ vựng | Số mục trong tệp từ vựng mới cần ánh xạ lại. |
tùy chọn | mang các giá trị thuộc tính tùy chọn |
Trả lại
- một phiên bản mới của GenerationVocabRemapping
public static generateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Thông số
oldVocabKích thước | Số mục trong tệp từ vựng cũ cần xem xét. Nếu -1, hãy sử dụng toàn bộ từ vựng cũ. |
---|