GenerateVocabRemapping

כיתת גמר ציבורית GenerateVocabRemapping

ניתן נתיב לקבצי אוצר מילים חדשים וישנים, מחזיר טנסור מיפוי מחדש של

אורך `num_new_vocab`, כאשר `remapping[i]` מכיל את מספר השורה באוצר המילים הישן התואם לשורה `i` באוצר המילים החדש (החל משורה `new_vocab_offset` ועד ישויות `num_new_vocab`), או `- 1` אם הערך `i` באוצר המילים החדש אינו נמצא באוצר המילים הישן. אוצר המילים הישן מוגבל לערכים הראשונים של `old_vocab_size` אם `old_vocab_size` אינו ערך ברירת המחדל של -1.

`num_vocab_offset` מאפשר שימוש במקרה של המשתנה המחולק, ובדרך כלל יש להגדיר אותו באמצעות בחינת מידע מחיצות. הפורמט של הקבצים צריך להיות קובץ טקסט, כאשר כל שורה מכילה ישות אחת בתוך אוצר המילים.

לדוגמה, עם `new_vocab_file` קובץ טקסט המכיל כל אחד מהרכיבים הבאים בשורה אחת: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, המיפוי המוחזר יהיה `[0, -1, 2]`.

האופ גם מחזיר ספירה של כמה ערכים באוצר המילים החדש היו קיימים באוצר המילים הישן, המשמש לחישוב מספר הערכים לאתחל במיפוי מחדש של מטריצת משקל

ניתן להשתמש בפונקציונליות זו למיפוי מחדש של אוצר מילים בשורות (בדרך כלל, תכונות) ואוצר מילים של עמודות (בדרך כלל, מחלקות) מנקודות ביקורת של TensorFlow. שימו לב שהלוגיקה של החלוקה מסתמכת על אוצר מילים רציף התואמים למשתנים מחולקים ב-div. יתרה מכך, המיפוי מחדש הבסיסי משתמש ב- IndexTable (בניגוד ל-CuckooTable לא מדויק), כך שקוד הלקוח צריך להשתמש ב-index_table_from_file() התואם כפי שעושה המסגרת FeatureColumn (בניגוד ל-tf.feature_to_id(), שמשתמש ב-CuckooTable).

כיתות מקוננות

מעמד GenerateVocabRemapping.Options תכונות אופציונליות עבור GenerateVocabRemapping

קבועים

חוּט OP_NAME השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

שיטות ציבוריות

סטטי GenerateVocabRemapping
create ( scope scope, Operand < TSstring > newVocabFile, Operand < TSstring > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... options)
שיטת מפעל ליצירת מחלקה העוטפת פעולת GenerateVocabRemapping חדשה.
פלט < TInt32 >
numPresent ()
מספר רשומות המילה החדשות שנמצאו במילה הישן.
סטטי GenerateVocabRemapping.Options
oldVocabSize (Long oldVocabSize)
פלט < TInt64 >
מיפוי מחדש ()
Tensor באורך num_new_vocab שבו האלמנט באינדקס i שווה למזהה הישן שממפה למזהה החדש i.

שיטות בירושה

קבועים

מחרוזת סופית סטטית ציבורית OP_NAME

השם של המבצע הזה, כפי שידוע על ידי מנוע הליבה של TensorFlow

ערך קבוע: "GenerateVocabRemapping"

שיטות ציבוריות

סטטי ציבורי GenerateVocabRemapping create ( scope scope, Operand < TString > newVocabFile, Operand < TSstring > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... options)

שיטת מפעל ליצירת מחלקה העוטפת פעולת GenerateVocabRemapping חדשה.

פרמטרים
תְחוּם ההיקף הנוכחי
newVocabFile נתיב לקובץ ה-vocab החדש.
oldVocabFile נתיב לקובץ ה-vocab הישן.
newVocabOffset כמה כניסות לקובץ המילה החדש להתחיל לקרוא.
numNewVocab מספר הערכים בקובץ המילה החדש למיפוי מחדש.
אפשרויות נושא ערכי תכונות אופציונליות
החזרות
  • מופע חדש של GenerateVocabRemapping

פלט ציבורי < TInt32 > numPresent ()

מספר רשומות המילה החדשות שנמצאו במילה הישן.

סטטי ציבורי GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

פרמטרים
oldVocabSize מספר הערכים בקובץ המילה הישן שיש לקחת בחשבון. אם -1, השתמש בכל אוצר המילים הישן.

פלט ציבורי < TInt64 > מיפוי מחדש ()

Tensor באורך num_new_vocab שבו האלמנט באינדקס i שווה למזהה הישן שממפה למזהה החדש i. רכיב זה הוא -1 עבור כל מזהה חדש שאינו נמצא באוצר המילים הישן.