דגמי שפה של Wiki40B

הצג באתר TensorFlow.org הפעל בגוגל קולאב הצג ב-GitHub הורד מחברת ראה דגמי TF Hub

צור דמוי ויקיפדיה טקסט באמצעות מודלי שפת Wiki40B מן TensorFlow Hub !

מחברת זו ממחישה כיצד:

  • טען את 41 לשוני 2 דגמים שפה רב-לשוני, כי הם חלק מן האוסף Wiki40b-LM על TF-Hub
  • השתמש במודלים כדי להשיג תמיהה, הפעלות לכל שכבה והטמעות מילים עבור פיסת טקסט נתונה
  • צור טקסט אסימון אחר אסימון מחתיכת טקסט ראשוני

מודלי השפה מאומנים על פרסם והנקייה Wiki40B במערך זמין על מערכי נתוני TensorFlow. ההתקנה ההכשרה מבוססת על הנייר "ויקי-40B: מערך נתוני דגם שפה רבה" .

להכין

התקנת תלות

יבוא

בחר שפה

בואו לבחור באיזו שפה מודל לטעון מ TF-Hub ואת אורך הטקסט להיווצר.

Using the https://tfhub.dev/google/wiki40b-lm-en/1 model to generate sequences of max length 20.

בנה את המודל

אוקיי, עכשיו הגדרנו אשר מראש מאומן מודל לשימוש, בואו להגדיר את זה כדי ליצור את הטקסט max_gen_len . נצטרך לטעון את מודל השפה מ-TF-Hub, להזין קטע של טקסט מתחיל, ולאחר מכן להזין באופן איטרטיבי אסימונים כאשר הם נוצרים.

טען את חלקי מודל השפה

2021-11-05 13:33:19.950673: W tensorflow/core/common_runtime/graph_constructor.cc:1511] Importing a graph with a lower producer version 359 into an existing graph with producer version 808. Shape inference will have run different parts of the graph with different producer versions.

בנה את גרף הדור לכל אסימון

בנה את הגרף גלול סטטי עבור max_gen_len אסימונים

צור קצת טקסט

בואו ניצור קצת טקסט! נצטרך להגדיר טקסט seed כדי להנחות מודל השפה.

אתה יכול להשתמש באחד הזרעים המוגדרים מראש או לחלופין להיכנס בעצמך. טקסט זה ישמש כמקור למודל השפה כדי לעזור למודל השפה לברר את השלב הבא.

אתה יכול להשתמש באסימונים המיוחדים הבאים לפני חלקים מיוחדים של המאמר שנוצר. השתמש _START_ARTICLE_ כדי לציין את תחילת המאמר, _START_SECTION_ כדי לציין את תחילתה של קטע, ו _START_PARAGRAPH_ כדי ליצור טקסט הכתבה

זרעים מוגדרים מראש

הזן זרע משלך (אופציונלי).

Generating text from seed:

_START_ARTICLE_
1882 Prince Edward Island general election
_START_PARAGRAPH_
The 1882 Prince Edward Island election was held on May 8, 1882 to elect members of the House of Assembly of the province of Prince Edward Island, Canada.

אתחול הפגישה.

צור טקסט

_START_SECTION_ Candidates _START_PARAGRAPH_ Thirteen members of the House of Assembly were all members nominations. Among

אנו יכולים גם להסתכל על התפוקות האחרות של המודל - התמיהה, מזהי האסימונים, הפעלות הביניים וההטבעות

ppl_result
array([23.507753], dtype=float32)
token_ids_result
array([[   8,    3, 6794, 1579, 1582,  721,  489,  448,    8,    5,   26,
        6794, 1579, 1582,  721,  448,   17,  245,   22,  166, 2928, 6794,
          16, 7690,  384,   11,    7,  402,   11, 1172,   11,    7, 2115,
          11, 1579, 1582,  721,    9,  646,   10]], dtype=int32)
activations_result.shape
(12, 1, 39, 768)
embeddings_result
array([[[ 0.12262525,  5.548009  ,  1.4743135 , ...,  2.4388404 ,
         -2.2788858 ,  2.172028  ],
        [-2.3905468 , -0.97108954, -1.5513545 , ...,  8.458472  ,
         -2.8723319 ,  0.6534524 ],
        [-0.83790785,  0.41630274, -0.8740793 , ...,  1.6446769 ,
         -0.9074106 ,  0.3339265 ],
        ...,
        [-0.8054745 , -1.2495526 ,  2.6232922 , ...,  2.893288  ,
         -0.91287214, -1.1259722 ],
        [ 0.64944506,  3.3696785 ,  0.09543293, ..., -0.7839227 ,
         -1.3573489 ,  1.862214  ],
        [-1.2970612 ,  0.5961366 ,  3.3531897 , ...,  3.2853985 ,
         -1.6212384 ,  0.30257902]]], dtype=float32)