TFX מקל על תזמורת זרימת העבודה של למידת מכונה (ML) שלך כצינור, על מנת:
- הפוך את תהליך ה-ML שלך לאוטומטי, המאפשר לך לאמן מחדש, להעריך ולפרוס את המודל שלך באופן קבוע.
- צור צינורות ML הכוללים ניתוח מעמיק של ביצועי המודל ואימות של מודלים שהוכשרו לאחרונה כדי להבטיח ביצועים ואמינות.
- עקוב אחר נתוני האימון לאיתור חריגות והסר הטיית ההגשה של האימון
- הגדל את מהירות הניסוי על ידי הפעלת צינור עם קבוצות שונות של היפרפרמטרים.
תהליך פיתוח צינור טיפוסי מתחיל במכונה מקומית, עם ניתוח נתונים והגדרת רכיבים, לפני פריסה לייצור. מדריך זה מתאר שתי דרכים לבנות צינור באופן מקומי.
- התאם אישית תבנית צינור TFX כך שתתאים לצרכים של זרימת העבודה שלך ב-ML. תבניות צינור TFX הן זרימות עבודה מובנות מראש המדגימות שיטות עבודה מומלצות תוך שימוש ברכיבים הסטנדרטיים של TFX.
- בניית צינור באמצעות TFX. במקרה שימוש זה, אתה מגדיר צינור מבלי להתחיל מתבנית.
בזמן שאתה מפתח את הצינור שלך, אתה יכול להפעיל אותו עם LocalDagRunner
. לאחר מכן, לאחר שרכיבי הצינור הוגדרו ונבדקו היטב, תשתמש במתזמר ברמה הפקה כגון Kubeflow או Airflow.
לפני שתתחיל
TFX היא חבילת Python, כך שתצטרכו להגדיר סביבת פיתוח של Python, כמו סביבה וירטואלית או קונטיינר Docker. אָז:
pip install tfx
אם אתה חדש בצינורות TFX, למד עוד על מושגי הליבה עבור צינורות TFX לפני שתמשיך.
בניית צינור באמצעות תבנית
TFX Pipeline Templates מקלים על תחילת העבודה עם פיתוח צינור על ידי מתן קבוצה בנויה מראש של הגדרות צינור שתוכל להתאים אישית למקרה השימוש שלך.
הסעיפים הבאים מתארים כיצד ליצור עותק של תבנית ולהתאים אותה לצרכים שלך.
צור עותק של תבנית הצינור
ראה רשימה של תבניות צינור TFX הזמינות:
tfx template list
בחר תבנית מהרשימה
tfx template copy --model=template --pipeline_name=pipeline-name \ --destination_path=destination-path
החלף את הדברים הבאים:
- template : שם התבנית שברצונך להעתיק.
- pipeline-name : שם הצינור שיש ליצור.
- destination-path : הנתיב שאליו יש להעתיק את התבנית.
למידע נוסף על פקודת
tfx template copy
.עותק של תבנית הצינור נוצר בנתיב שציינת.
חקור את תבנית הצינור
חלק זה מספק סקירה כללית של הפיגומים שנוצרו על ידי תבנית.
חקור את הספריות והקבצים שהועתקו לספריית הבסיס של הצינור שלך
- ספריית צינור עם
-
pipeline.py
- מגדיר את הצינור, ומפרט אילו רכיבים נמצאים בשימוש -
configs.py
- החזק את פרטי התצורה כגון מאיפה מגיעים הנתונים או באיזה מתזמר נעשה שימוש
-
- ספריית נתונים
- זה מכיל בדרך כלל קובץ
data.csv
, שהוא מקור ברירת המחדל עבורExampleGen
. אתה יכול לשנות את מקור הנתונים ב-configs.py
.
- זה מכיל בדרך כלל קובץ
ספריית מודלים עם קוד עיבוד מקדים והטמעת מודלים
התבנית מעתיקה את רנסי DAG לסביבה המקומית ול-Kubeflow.
תבניות מסוימות כוללות גם מחברות Python כך שתוכלו לחקור את הנתונים והחפצים שלכם עם MetaData של למידת מכונה.
- ספריית צינור עם
הפעל את הפקודות הבאות בספריית הצינור שלך:
tfx pipeline create --pipeline_path local_runner.py
tfx run create --pipeline_name pipeline_name
הפקודה יוצרת ריצת צינור באמצעות
LocalDagRunner
, אשר מוסיפה את הספריות הבאות לצינור שלך:- ספריית tfx_metadata המכילה את מאגר ML Metadata בשימוש מקומי.
- ספריית tfx_pipeline_output המכילה את פלטי הקבצים של הצינור.
פתח את הקובץ
pipeline/configs.py
של הצינור שלך וסקור את התוכן. סקריפט זה מגדיר את אפשרויות התצורה המשמשות את הצינור ואת פונקציות הרכיבים. זה המקום שבו תציין דברים כמו מיקום מקור הנתונים או מספר שלבי האימון בריצה.פתח את הקובץ
pipeline/pipeline.py
של הצינור שלך וסקור את התוכן. סקריפט זה יוצר את צינור TFX. בתחילה, הצינור מכיל רק רכיבExampleGen
.- עקוב אחר ההוראות בהערות TODO ב-
pipeline.py
כדי להוסיף שלבים נוספים לצינור.
- עקוב אחר ההוראות בהערות TODO ב-
פתח את הקובץ
local_runner.py
וסקור את התוכן. סקריפט זה יוצר ריצת צינור ומציין את הפרמטרים של הריצה, כגוןdata_path
ו-preprocessing_fn
.סקרת את הפיגומים שנוצרו על ידי התבנית ויצרת ריצת צינור באמצעות
LocalDagRunner
. לאחר מכן, התאם אישית את התבנית כך שתתאים לדרישות שלך.
התאם אישית את הצינור שלך
חלק זה מספק סקירה כללית כיצד להתחיל בהתאמה אישית של התבנית שלך.
עצב את הצינור שלך. הפיגום שתבנית מספקת עוזר לך ליישם צינור לנתונים טבלאיים באמצעות הרכיבים הסטנדרטיים של TFX. אם אתה מעביר זרימת עבודה קיימת של ML לתוך צינור, ייתכן שיהיה עליך לשנות את הקוד שלך כדי לעשות שימוש מלא ברכיבים הסטנדרטיים של TFX . ייתכן שתצטרך גם ליצור רכיבים מותאמים אישית המטמיעים תכונות שהן ייחודיות לזרימת העבודה שלך או שעדיין אינן נתמכות על ידי רכיבים סטנדרטיים של TFX.
לאחר שתכננת את הצינור שלך, התאם באופן איטרטיבי את הצינור באמצעות התהליך הבא. התחל מהרכיב שמכניס נתונים לתוך הצינור שלך, שהוא בדרך כלל רכיב
ExampleGen
.התאם אישית את הצינור או רכיב כך שיתאים למקרה השימוש שלך. התאמות אישיות אלו עשויות לכלול שינויים כמו:
- שינוי פרמטרים של צינור.
- הוספת רכיבים לצינור או הסרתם.
- החלפת מקור קלט הנתונים. מקור נתונים זה יכול להיות קובץ או שאילתות לשירותים כגון BigQuery.
- שינוי תצורה של רכיב בצנרת.
- שינוי פונקציית ההתאמה האישית של רכיב.
הפעל את הרכיב באופן מקומי באמצעות הסקריפט
local_runner.py
, או רץ אחר DAG מתאים אם אתה משתמש בתזמור אחר. אם הסקריפט נכשל, נפה באגים בכשל ונסה שוב להפעיל את הסקריפט.לאחר שהתאמה אישית זו פועלת, עברו להתאמה אישית הבאה.
בעבודה איטרטיבית, אתה יכול להתאים אישית כל שלב בזרימת העבודה של התבנית כדי לענות על הצרכים שלך.
בניית צינור מותאם אישית
השתמש בהוראות הבאות כדי ללמוד עוד על בניית צינור מותאם אישית ללא שימוש בתבנית.
עצב את הצינור שלך. הרכיבים הסטנדרטיים של TFX מספקים פונקציונליות מוכחת כדי לעזור לך ליישם זרימת עבודה מלאה של ML. אם אתה מעביר זרימת עבודה קיימת של ML לתוך צינור, ייתכן שיהיה עליך לשנות את הקוד שלך כדי לעשות שימוש מלא ברכיבים הסטנדרטיים של TFX. ייתכן שיהיה עליך גם ליצור רכיבים מותאמים אישית המיישמים תכונות כגון הגדלת נתונים.
- למידע נוסף על רכיבי TFX סטנדרטיים .
- למידע נוסף על רכיבים מותאמים אישית .
צור קובץ סקריפט כדי להגדיר את הצינור שלך באמצעות הדוגמה הבאה. מדריך זה מתייחס לקובץ זה בשם
my_pipeline.py
.import os from typing import Optional, Text, List from absl import logging from ml_metadata.proto import metadata_store_pb2 import tfx.v1 as tfx PIPELINE_NAME = 'my_pipeline' PIPELINE_ROOT = os.path.join('.', 'my_pipeline_output') METADATA_PATH = os.path.join('.', 'tfx_metadata', PIPELINE_NAME, 'metadata.db') ENABLE_CACHE = True def create_pipeline( pipeline_name: Text, pipeline_root:Text, enable_cache: bool, metadata_connection_config: Optional[ metadata_store_pb2.ConnectionConfig] = None, beam_pipeline_args: Optional[List[Text]] = None ): components = [] return tfx.dsl.Pipeline( pipeline_name=pipeline_name, pipeline_root=pipeline_root, components=components, enable_cache=enable_cache, metadata_connection_config=metadata_connection_config, beam_pipeline_args=beam_pipeline_args, <!-- needed? --> ) def run_pipeline(): my_pipeline = create_pipeline( pipeline_name=PIPELINE_NAME, pipeline_root=PIPELINE_ROOT, enable_cache=ENABLE_CACHE, metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH) ) tfx.orchestration.LocalDagRunner().run(my_pipeline) if __name__ == '__main__': logging.set_verbosity(logging.INFO) run_pipeline()
בשלבים הבאים, אתה מגדיר את הצינור שלך ב-
create_pipeline
ומפעיל את הצינור שלך באופן מקומי באמצעות הרץ המקומי.בנה באופן איטרטיבי את הצינור שלך באמצעות התהליך הבא.
התאם אישית את הצינור או רכיב כך שיתאים למקרה השימוש שלך. התאמות אישיות אלו עשויות לכלול שינויים כמו:
- שינוי פרמטרים של צינור.
- הוספת רכיבים לצינור או הסרתם.
- החלפת קובץ קלט נתונים.
- שינוי תצורה של רכיב בצנרת.
- שינוי פונקציית ההתאמה האישית של רכיב.
הפעל את הרכיב באופן מקומי באמצעות הרץ המקומי או על ידי הפעלת הסקריפט ישירות. אם הסקריפט נכשל, נפה באגים בכשל ונסה שוב להפעיל את הסקריפט.
לאחר שהתאמה אישית זו פועלת, עברו להתאמה אישית הבאה.
התחל מהצומת הראשון בזרימת העבודה של הצינור שלך, בדרך כלל הצומת הראשון קולט נתונים לתוך הצינור שלך.
הוסף את הצומת הראשון בזרימת העבודה שלך לצינור שלך. בדוגמה זו, הצינור משתמש ברכיב הסטנדרטי
ExampleGen
כדי לטעון CSV מספרייה בכתובת./data
.from tfx.components import CsvExampleGen DATA_PATH = os.path.join('.', 'data') def create_pipeline( pipeline_name: Text, pipeline_root:Text, data_path: Text, enable_cache: bool, metadata_connection_config: Optional[ metadata_store_pb2.ConnectionConfig] = None, beam_pipeline_args: Optional[List[Text]] = None ): components = [] example_gen = tfx.components.CsvExampleGen(input_base=data_path) components.append(example_gen) return tfx.dsl.Pipeline( pipeline_name=pipeline_name, pipeline_root=pipeline_root, components=components, enable_cache=enable_cache, metadata_connection_config=metadata_connection_config, beam_pipeline_args=beam_pipeline_args, <!-- needed? --> ) def run_pipeline(): my_pipeline = create_pipeline( pipeline_name=PIPELINE_NAME, pipeline_root=PIPELINE_ROOT, data_path=DATA_PATH, enable_cache=ENABLE_CACHE, metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH) ) tfx.orchestration.LocalDagRunner().run(my_pipeline)
CsvExampleGen
יוצר רשומות לדוגמה בסידרה תוך שימוש בנתונים ב-CSV בנתיב הנתונים שצוין. על ידי הגדרת הפרמטרinput_base
של רכיבCsvExampleGen
עם שורש הנתונים.צור ספריית
data
באותה ספרייה כמוmy_pipeline.py
. הוסף קובץ CSV קטן לספרייתdata
.השתמש בפקודה הבאה כדי להפעיל את הסקריפט
my_pipeline.py
שלך.python my_pipeline.py
התוצאה צריכה להיות משהו כמו הבא:
INFO:absl:Component CsvExampleGen depends on []. INFO:absl:Component CsvExampleGen is scheduled. INFO:absl:Component CsvExampleGen is running. INFO:absl:Running driver for CsvExampleGen INFO:absl:MetadataStore with DB connection initialized INFO:absl:Running executor for CsvExampleGen INFO:absl:Generating examples. INFO:absl:Using 1 process(es) for Local pipeline execution. INFO:absl:Processing input csv data ./data/* to TFExample. WARNING:root:Couldn't find python-snappy so the implementation of _TFRecordUtil._masked_crc32c is not as fast as it could be. INFO:absl:Examples generated. INFO:absl:Running publisher for CsvExampleGen INFO:absl:MetadataStore with DB connection initialized INFO:absl:Component CsvExampleGen is finished.
המשך להוסיף באופן איטרטיבי רכיבים לצינור שלך.