דף זה מפרט קבוצה של מדריכים וכלים ידועים לפתרון בעיות בתחום הטקסט עם TensorFlow Hub. זהו מקום התחלה לכל מי שרוצה לפתור בעיות ML טיפוסיות באמצעות רכיבי ML מאומנים מראש במקום להתחיל מאפס.
מִיוּן
כאשר אנו רוצים לחזות מחלקה עבור דוגמה נתונה, למשל סנטימנט , רעילות , קטגוריית מאמר או כל מאפיין אחר.
המדריכים שלהלן פותרים את אותה משימה מנקודות מבט שונות ומשתמשים בכלים שונים.
קראס
סיווג טקסט עם Keras - דוגמה לבניית סיווג סנטימנט IMDB עם מערכי נתונים של Keras ו- TensorFlow.
אומדן
סיווג טקסט - דוגמה לבניית סיווג סנטימנט IMDB עם Estimator. מכיל טיפים מרובים לשיפור וקטע השוואת מודולים.
BERT
חיזוי סנטימנט סקירת סרטים עם BERT ב- TF Hub - מראה כיצד להשתמש במודול BERT לסיווג. כולל שימוש בספריית bert
לטוקניזציה ועיבוד מקדים.
קגל
סיווג IMDB על Kaggle - מראה כיצד ליצור אינטראקציה בקלות עם תחרות Kaggle מ-Colab, כולל הורדת הנתונים ושליחת התוצאות.
אומדן | קראס | TF2 | ערכות נתונים של TF | BERT | ממשקי API של Kaggle | |
---|---|---|---|---|---|---|
סיווג טקסט | ||||||
סיווג טקסט עם קרס | ||||||
חיזוי סנטימנט סקירת סרטים עם BERT ב- TF Hub | ||||||
סיווג IMDB על Kaggle |
משימת Bangla עם הטבעות FastText
TensorFlow Hub אינו מציע כרגע מודול בכל שפה. המדריך הבא מראה כיצד למנף את TensorFlow Hub לניסויים מהירים ופיתוח ML מודולרי.
Bangla Article Classifier - מדגים כיצד ליצור הטמעת טקסט TensorFlow Hub לשימוש חוזר, ולהשתמש בו כדי להכשיר מסווג Keras עבור מערך הנתונים של BARD Bangla Article .
דמיון סמנטי
כאשר אנו רוצים לברר אילו משפטים מתואמים זה עם זה בהגדרת אפס-shot (ללא דוגמאות אימון).
בסיסי
דמיון סמנטי - מראה כיצד להשתמש במודול מקודד המשפטים כדי לחשב דמיון משפטי.
חוצה לשוניים
דמיון סמנטי חוצה-לשוני - מראה כיצד להשתמש באחד ממקודדי המשפטים הדו-לשוניים כדי לחשב דמיון משפטי בין שפות.
שליפה סמנטית
שליפה סמנטית - מראה כיצד להשתמש במקודד משפט Q/A לאינדקס אוסף מסמכים לאחזור על סמך דמיון סמנטי.
קלט SentencePiece
דמיון סמנטי עם מקודד אוניברסלי לייט - מראה כיצד להשתמש במודולי מקודד משפטים שמקבלים מזהי SentencePiece בקלט במקום בטקסט.
יצירת מודול
במקום להשתמש רק במודולים ב- tfhub.dev , יש דרכים ליצור מודולים משלו. זה יכול להיות כלי שימושי עבור מודולריות טובה יותר של בסיס קוד ML ולשיתוף נוסף.
עטיפת הטבעות קיימות שהוכשרו מראש
ייצואן מודול הטבעת טקסט - כלי לעטוף הטבעה קיימת מיומנת במודול. מראה כיצד לכלול פעולות לעיבוד מוקדם של טקסט במודול. זה מאפשר ליצור מודול הטבעת משפטים מהטבעות אסימונים.
יצואן מודול הטמעת טקסט v2 - זהה לעיל, אך תואם ל-TensorFlow 2 וביצוע נלהב.