למידה עמוקה מודעת לחוסר וודאות עם SNGP

ביישומי AI שהם קריטיים לבטיחות (למשל, קבלת החלטות רפואיות ונהיגה אוטונומית) או שבהם הנתונים רועשים מטבעם (למשל, הבנת שפה טבעית), חשוב למסווג עמוק לכמת באופן אמין את אי הוודאות שלו. המסווג העמוק צריך להיות מודע למגבלותיו שלו ומתי עליו להעביר את השליטה לידי המומחים האנושיים. מדריך זה מראה כיצד לשפר את יכולתו של מסווג עמוק בכימות אי ודאות באמצעות טכניקה הנקראת Spectral-normalized Neural Gaussian Process ( SNGP ) .

הרעיון המרכזי של SNGP הוא לשפר את מודעות המרחק של מסווג עמוק על ידי החלת שינויים פשוטים ברשת. מודעות למרחק של מודל היא מדד לאופן שבו ההסתברות החזויה שלו משקפת את המרחק בין דוגמא המבחן לנתוני האימון. זהו תכונה רצויה המקובלת למודלים הסתברותיים בסטנדרט זהב (למשל, תהליך גאוס עם גרעיני RBF) אך חסרה במודלים עם רשתות עצביות עמוקות. SNGP מספק דרך פשוטה להחדיר את התנהגות תהליך גאוס למסווג עמוק תוך שמירה על דיוק הניבוי שלו.

מדריך זה מיישם מודל SNGP מבוסס רשת שיורית עמוקה (ResNet) על מערך הנתונים של שני ירחים , ומשווה את משטח אי הוודאות שלו לזה של שתי גישות אי-ודאות פופולריות אחרות - נשירה של מונטה קרלו ו- Deep ensemble .

מדריך זה ממחיש את מודל SNGP על מערך צעצוע דו-ממדי. לדוגמא של יישום SNGP על משימת הבנת שפה טבעית בעולם האמיתי באמצעות BERT-base, עיין במדריך SNGP-BERT . להטמעות באיכות גבוהה של מודל SNGP (ושיטות רבות אחרות של אי ודאות) במגוון רחב של מערכי נתונים בנצ'מרק (למשל, CIFAR-100 , ImageNet , זיהוי רעילות של Jigsaw וכו'), אנא עיין במדד אי- הוודאות Baselines .


תהליך גאוס עצבי מנורמל ספקטרלי (SNGP) היא גישה פשוטה לשיפור איכות אי הוודאות של מסווג עמוק תוך שמירה על רמה דומה של דיוק והשהייה. בהינתן רשת שיורית עמוקה, SNGP מבצעת שני שינויים פשוטים במודל:

  • הוא מחיל נורמליזציה ספקטרלית על השכבות השיוריות הנסתרות.
  • הוא מחליף את שכבת הפלט הצפופה בשכבת תהליך גאוסי.


בהשוואה לגישות אי-ודאות אחרות (למשל, נשירה של מונטה קרלו או אנסמבל Deep), ל-SNGP מספר יתרונות:

  • זה עובד עבור מגוון רחב של ארכיטקטורות המבוססות שאריות חדישות (למשל, (Wide) ResNet, DenseNet, BERT וכו').
  • זוהי שיטה של ​​מודל יחיד (כלומר, אינה מסתמכת על ממוצע אנסמבל). לכן ל-SNGP יש רמת חביון דומה לרשת דטרמיניסטית יחידה, וניתן להתאים אותה בקלות למערכי נתונים גדולים כמו ImageNet ו- Jigsaw Toxic Comments סיווג .
  • יש לו ביצועי זיהוי חזקים מחוץ לתחום הודות לתכונת המודעות למרחק .

החסרונות של שיטה זו הם:

  • אי הוודאות הניבוי של SNGP מחושבת באמצעות קירוב Laplace . לכן תיאורטית, אי הוודאות האחורית של SNGP שונה מזו של תהליך גאוסי מדויק.

  • אימון SNGP זקוק לשלב איפוס שיתוף פעולה בתחילת עידן חדש. זה יכול להוסיף כמות זעירה של מורכבות נוספת לצינור האימונים. מדריך זה מראה דרך פשוטה ליישם זאת באמצעות התקשרויות חוזרות של Keras.


pip install --use-deprecated=legacy-resolver tf-models-official
# refresh pkg_resources so it takes the changes into account.
import pkg_resources
import importlib
<module 'pkg_resources' from '/tmpfs/src/tf_docs_env/lib/python3.7/site-packages/pkg_resources/__init__.py'>
import matplotlib.pyplot as plt
import matplotlib.colors as colors

import sklearn.datasets

import numpy as np
import tensorflow as tf

import official.nlp.modeling.layers as nlp_layers

הגדר פקודות מאקרו להדמיה

plt.rcParams['figure.dpi'] = 140

= (-3.5, 3.5)
= (-2.5, 2.5)
= colors.ListedColormap(["#377eb8", "#ff7f00"])
= colors.Normalize(vmin=0, vmax=1,)
= 100

מערך הנתונים של שני הירחים

צור את מערכי ההדרכה וההערכה ממערך הנתונים של שני הירחים .

def make_training_data(sample_size=500):
"""Create two moon training dataset."""
, train_labels = sklearn.datasets.make_moons(
=2 * sample_size, noise=0.1)

# Adjust data position slightly.
[train_labels == 0] += [-0.1, 0.2]
[train_labels == 1] += [0.1, -0.2]

return train_examples, train_labels

הערך את ההתנהגות החזויה של המודל על פני כל מרחב הקלט הדו-ממדי.

def make_testing_data(x_range=DEFAULT_X_RANGE, y_range=DEFAULT_Y_RANGE, n_grid=DEFAULT_N_GRID):
"""Create a mesh grid in 2D space."""
# testing data (mesh grid over data space)
= np.linspace(x_range[0], x_range[1], n_grid)
= np.linspace(y_range[0], y_range[1], n_grid)
, yv = np.meshgrid(x, y)
return np.stack([xv.flatten(), yv.flatten()], axis=-1)

כדי להעריך אי ודאות במודל, הוסף מערך נתונים מחוץ לתחום (OOD) השייך למחלקה שלישית. המודל אף פעם לא רואה את דוגמאות ה-OOD הללו במהלך האימון.

def make_ood_data(sample_size=500, means=(2.5, -1.75), vars=(0.01, 0.01)):
return np.random.multivariate_normal(
, cov=np.diag(vars), size=sample_size)
# Load the train, test and OOD datasets.
, train_labels = make_training_data(
= make_testing_data()
= make_ood_data(sample_size=500)

# Visualize
= train_examples[train_labels == 0]
= train_examples[train_labels == 1]

.figure(figsize=(7, 5.5))

.scatter(pos_examples[:, 0], pos_examples[:, 1], c="#377eb8", alpha=0.5)
.scatter(neg_examples[:, 0], neg_examples[:, 1], c="#ff7f00", alpha=0.5)
.scatter(ood_examples[:, 0], ood_examples[:, 1], c="red", alpha=0.1)

.legend(["Postive", "Negative", "Out-of-Domain"])




כאן הכחול והכתום מייצגים את המחלקות החיוביות והשליליות, והאדום מייצג את נתוני ה-OOD. מודל שמכמת היטב את אי הוודאות צפוי להיות בטוח כשהוא קרוב לנתוני אימון (כלומר, p(xtest) קרוב ל-0 או 1), ולהיות לא בטוח כשהוא רחוק מאזורי נתוני האימון (כלומר, p(xtest) קרוב ל-0.5 ).

המודל הדטרמיניסטי

הגדר מודל

התחל מהמודל הדטרמיניסטי (הבסיסי): רשת שיורית רב-שכבתית (ResNet) עם הסדרת נשירה.

class DeepResNet(tf.keras.Model):
"""Defines a multi-layer residual network."""
def __init__(self, num_classes, num_layers=3, num_hidden=128,
=0.1, **classifier_kwargs):
# Defines class meta data.
self.num_hidden = num_hidden
self.num_layers = num_layers
self.dropout_rate = dropout_rate
self.classifier_kwargs = classifier_kwargs

# Defines the hidden layers.
self.input_layer = tf.keras.layers.Dense(self.num_hidden, trainable=False)
self.dense_layers = [self.make_dense_layer() for _ in range(num_layers)]

# Defines the output layer.
self.classifier = self.make_output_layer(num_classes)

def call(self, inputs):
# Projects the 2d input data to high dimension.
= self.input_layer(inputs)

# Computes the resnet hidden representations.
for i in range(self.num_layers):
= self.dense_layers[i](hidden)
= tf.keras.layers.Dropout(self.dropout_rate)(resid)
+= resid

return self.classifier(hidden)

def make_dense_layer(self):
"""Uses the Dense layer as the hidden layer."""
return tf.keras.layers.Dense(self.num_hidden, activation="relu")

def make_output_layer(self, num_classes):
"""Uses the Dense layer as the output layer."""
return tf.keras.layers.Dense(
, **self.classifier_kwargs)

מדריך זה משתמש ב-ResNet בן 6 שכבות עם 128 יחידות נסתרות.

resnet_config = dict(num_classes=2, num_layers=6, num_hidden=128)
resnet_model = DeepResNet(**resnet_config)
resnet_model.build((None, 2))
Model: "deep_res_net"
 Layer (type)                Output Shape              Param #   
 dense (Dense)               multiple                  384       
 dense_1 (Dense)             multiple                  16512     
 dense_2 (Dense)             multiple                  16512     
 dense_3 (Dense)             multiple                  16512     
 dense_4 (Dense)             multiple                  16512     
 dense_5 (Dense)             multiple                  16512     
 dense_6 (Dense)             multiple                  16512     
 dense_7 (Dense)             multiple                  258       
Total params: 99,714
Trainable params: 99,330
Non-trainable params: 384

דגם רכבת

הגדר את פרמטרי האימון כך שישתמשו ב- SparseCategoricalCrossentropy ההפסד ובאופטימיזציית Adam.

loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
= tf.keras.metrics.SparseCategoricalAccuracy(),
= tf.keras.optimizers.Adam(learning_rate=1e-4)

= dict(loss=loss, metrics=metrics, optimizer=optimizer)

אמן את הדגם למשך 100 עידנים עם גודל אצווה 128.

fit_config = dict(batch_size=128, epochs=100)
.fit(train_examples, train_labels, **fit_config)
<keras.callbacks.History at 0x7ff7ac5c8fd0>

דמיינו חוסר ודאות

def plot_uncertainty_surface(test_uncertainty, ax, cmap=None):
"""Visualizes the 2D uncertainty surface.

  For simplicity, assume these objects already exist in the memory:

    test_examples: Array of test examples, shape (num_test, 2).
    train_labels: Array of train labels, shape (num_train, ).
    train_examples: Array of train examples, shape (num_train, 2).

    test_uncertainty: Array of uncertainty scores, shape (num_test,).
    ax: A matplotlib Axes object that specifies a matplotlib figure.
    cmap: A matplotlib colormap object specifying the palette of the
      predictive surface.

    pcm: A matplotlib PathCollection object that contains the palette
      information of the uncertainty plot.

# Normalize uncertainty for better visualization.
= test_uncertainty / np.max(test_uncertainty)

# Set view limits.

# Plot normalized uncertainty surface.
= ax.imshow(
.reshape(test_uncertainty, [DEFAULT_N_GRID, DEFAULT_N_GRID]),

# Plot training data.
.scatter(train_examples[:, 0], train_examples[:, 1],
=train_labels, cmap=DEFAULT_CMAP, alpha=0.5)
.scatter(ood_examples[:, 0], ood_examples[:, 1], c="red", alpha=0.1)

return pcm

כעת דמיינו את התחזיות של המודל הדטרמיניסטי. תחילה שרטט את ההסתברות של המחלקה:


resnet_logits = resnet_model(test_examples)
= tf.nn.softmax(resnet_logits, axis=-1)[:, 0]  # Take the probability for class 0.
_, ax = plt.subplots(figsize=(7, 5.5))

= plot_uncertainty_surface(resnet_probs, ax=ax)

.colorbar(pcm, ax=ax)
.title("Class Probability, Deterministic Model")



בעלילה זו, הצהוב והסגול הם ההסתברויות הניבויות עבור שתי המחלקות. המודל הדטרמיניסטי עשה עבודה טובה בסיווג שני המחלקות המוכרות (כחול וכתום) עם גבול החלטה לא ליניארי. עם זאת, הוא אינו מודע למרחק , וסיווג את הדוגמאות האדומות מחוץ לתחום שמעולם לא נראו (OOD) בביטחון כמעמד הכתום.

דמיינו את אי הוודאות של המודל על ידי חישוב השונות הניבוי :


resnet_uncertainty = resnet_probs * (1 - resnet_probs)
_, ax = plt.subplots(figsize=(7, 5.5))

= plot_uncertainty_surface(resnet_uncertainty, ax=ax)

.colorbar(pcm, ax=ax)
.title("Predictive Uncertainty, Deterministic Model")



בחלקה זו, הצהוב מצביע על אי ודאות גבוהה, והסגול מצביע על אי ודאות נמוכה. אי הוודאות של ResNet דטרמיניסטית תלויה רק ​​במרחק של דוגמאות הבדיקה מגבול ההחלטה. זה מוביל את המודל להיות בטוח יתר על המידה כאשר הוא מחוץ לתחום ההדרכה. הסעיף הבא מראה כיצד SNGP מתנהג בצורה שונה במערך נתונים זה.

דגם SNGP

הגדר מודל SNGP

בואו ליישם כעת את מודל SNGP. שני רכיבי SNGP, SpectralNormalization ו- RandomFeatureGaussianProcess , זמינים בשכבות המובנות של tensorflow_model.


הבה נבחן את שני המרכיבים הללו ביתר פירוט. (תוכל גם לקפוץ למקטע מודל SNGP כדי לראות כיצד המודל המלא מיושם.)

מעטפת נורמליזציה ספקטרלית

SpectralNormalization היא מעטפת שכבת Keras. ניתן ליישם אותו על שכבה צפופה קיימת כך:

dense = tf.keras.layers.Dense(units=10)
= nlp_layers.SpectralNormalization(dense, norm_multiplier=0.9)

נורמליזציה ספקטרלית מסדירה את המשקל הנסתר W על ידי הדרכה הדרגתית של הנורמה הספקטרלית שלו (כלומר, הערך העצמי הגדול ביותר של W) לעבר ערך היעד norm_multiplier .

שכבת תהליך גאוס (GP).

RandomFeatureGaussianProcess מיישמת קירוב מבוסס תכונות אקראי למודל תהליך גאוסי הניתן לאימון מקצה לקצה עם רשת עצבית עמוקה. מתחת למכסה המנוע, שכבת התהליך גאוס מיישמת רשת דו-שכבתית:


כאן x הוא הקלט, ו- W ו- b הם משקלים קפואים המאוחלים באופן אקראי מהתפלגות גאוסית ואחידה, בהתאמה. (לכן Φ(x) נקראות "תכונות אקראיות".) β הוא משקל הגרעין הניתן ללמידה דומה לזה של שכבה צפופה.

batch_size = 32
= 1024
= 10
gp_layer = nlp_layers.RandomFeatureGaussianProcess(units=num_classes,

הפרמטרים העיקריים של שכבות GP הם:

  • units : הממד של לוגיטי הפלט.
  • num_inducing : הממד M של המשקל הנסתר W. ברירת המחדל היא 1024.
  • normalize_input : האם להחיל נורמליזציה של שכבה על הקלט x.
  • scale_random_features : האם להחיל את קנה המידה 2/M על הפלט הנסתר.
  • gp_cov_momentum שולט על אופן חישוב שיתוף הפעולה של המודל. אם מוגדר לערך חיובי (למשל, 0.999), מטריצת השונות מחושבת באמצעות עדכון הממוצע הנע מבוסס המומנטום (בדומה לנורמליזציה של אצווה). אם מוגדר ל-1, מטריצת השונות מתעדכנת ללא מומנטום.

בהינתן קלט אצווה עם shape (batch_size, input_dim) , שכבת ה-GP מחזירה טנסור logits (shape (batch_size, num_classes) ) לניבוי, וגם covmat tensor (shape (batch_size, batch_size) ) שהיא מטריצת הקווריאנטיות האחורית של לוגיטים אצווה.

embedding = tf.random.normal(shape=(batch_size, input_dim))

, covmat = gp_layer(embedding)

תיאורטית, ניתן להרחיב את האלגוריתם כדי לחשב ערכי שונות עבור מחלקות שונות (כפי שהוצג במאמר ה- SNGP המקורי ). עם זאת, קשה להתאים את זה לבעיות עם חללי פלט גדולים (למשל, ImageNet או מודלים של שפה).

דגם ה-SNGP המלא

בהתחשב במחלקה הבסיסית DeepResNet , ניתן ליישם את מודל SNGP בקלות על ידי שינוי שכבות הרשת והפלט הנסתרות. עבור תאימות עם Keras model.fit() API, שנה גם את שיטת ה- call() של המודל כך שהוא יוציא רק logits במהלך האימון.

class DeepResNetSNGP(DeepResNet):
def __init__(self, spec_norm_bound=0.9, **kwargs):
self.spec_norm_bound = spec_norm_bound

def make_dense_layer(self):
"""Applies spectral normalization to the hidden layer."""
= super().make_dense_layer()
return nlp_layers.SpectralNormalization(
, norm_multiplier=self.spec_norm_bound)

def make_output_layer(self, num_classes):
"""Uses Gaussian process as the output layer."""
return nlp_layers.RandomFeatureGaussianProcess(

def call(self, inputs, training=False, return_covmat=False):
# Gets logits and covariance matrix from GP layer.
, covmat = super().call(inputs)

# Returns only logits during training.
if not training and return_covmat:
return logits, covmat

return logits

השתמש באותה ארכיטקטורה כמו המודל הדטרמיניסטי.

{'num_classes': 2, 'num_layers': 6, 'num_hidden': 128}
sngp_model = DeepResNetSNGP(**resnet_config)
sngp_model.build((None, 2))
Model: "deep_res_net_sngp"
 Layer (type)                Output Shape              Param #   
 dense_9 (Dense)             multiple                  384       
 spectral_normalization_1 (S  multiple                 16768     
 spectral_normalization_2 (S  multiple                 16768     
 spectral_normalization_3 (S  multiple                 16768     
 spectral_normalization_4 (S  multiple                 16768     
 spectral_normalization_5 (S  multiple                 16768     
 spectral_normalization_6 (S  multiple                 16768     
 random_feature_gaussian_pro  multiple                 1182722   
 cess (RandomFeatureGaussian                                     
Total params: 1,283,714
Trainable params: 101,120
Non-trainable params: 1,182,594

יישם התקשרות חוזרת של Keras כדי לאפס את מטריצת השונות בתחילת עידן חדש.

class ResetCovarianceCallback(tf.keras.callbacks.Callback):

def on_epoch_begin(self, epoch, logs=None):
"""Resets covariance matrix at the begining of the epoch."""
if epoch > 0:

הוסף התקשרות חוזרת זו למחלקת המודל של DeepResNetSNGP .

class DeepResNetSNGPWithCovReset(DeepResNetSNGP):
def fit(self, *args, **kwargs):
"""Adds ResetCovarianceCallback to model callbacks."""
["callbacks"] = list(kwargs.get("callbacks", []))

return super().fit(*args, **kwargs)

דגם רכבת

השתמש tf.keras.model.fit כדי לאמן את הדוגמנית.

sngp_model = DeepResNetSNGPWithCovReset(**resnet_config)
.fit(train_examples, train_labels, **fit_config)
<keras.callbacks.History at 0x7ff7ac0f83d0>

דמיינו חוסר ודאות

תחילה חשב את הלוגיטים והשונות החזויים.

sngp_logits, sngp_covmat = sngp_model(test_examples, return_covmat=True)
sngp_variance = tf.linalg.diag_part(sngp_covmat)[:, None]

כעת חשב את ההסתברות הניבוי האחורי. השיטה הקלאסית לחישוב ההסתברות הניבוי של מודל הסתברותי היא שימוש בדגימת מונטה קרלו, כלומר,


כאשר M הוא גודל המדגם, ו- logitm(x) הם דגימות אקראיות מה- MultivariateNormalהאחורי של SNGP ( sngp_logits , sngp_covmat ). עם זאת, גישה זו יכולה להיות איטית עבור יישומים רגישים לזמן השהייה כגון נהיגה אוטונומית או הצעות מחיר בזמן אמת. במקום זאת, ניתן E(p(x)) באמצעות שיטת השדה הממוצע :


כאשר σ2(x) הוא שונות SNGP, ו- λ נבחר לעתים קרובות כ- π/8 או 3/π2.

sngp_logits_adjusted = sngp_logits / tf.sqrt(1. + (np.pi / 8.) * sngp_variance)
= tf.nn.softmax(sngp_logits_adjusted, axis=-1)[:, 0]

שיטת שדה ממוצע זו מיושמת כפונקציה layers.gaussian_process.mean_field_logits :

def compute_posterior_mean_probability(logits, covmat, lambda_param=np.pi / 8.):
# Computes uncertainty-adjusted logits using the built-in method.
= nlp_layers.gaussian_process.mean_field_logits(
, covmat, mean_field_factor=lambda_param)

return tf.nn.softmax(logits_adjusted, axis=-1)[:, 0]
sngp_logits, sngp_covmat = sngp_model(test_examples, return_covmat=True)
= compute_posterior_mean_probability(sngp_logits, sngp_covmat)

סיכום SNGP

def plot_predictions(pred_probs, model_name=""):
"""Plot normalized class probabilities and predictive uncertainties."""
# Compute predictive uncertainty.
= pred_probs * (1. - pred_probs)

# Initialize the plot axes.
, axs = plt.subplots(1, 2, figsize=(14, 5))

# Plots the class probability.
= plot_uncertainty_surface(pred_probs, ax=axs[0])
# Plots the predictive uncertainty.
= plot_uncertainty_surface(uncertainty, ax=axs[1])

# Adds color bars and titles.
.colorbar(pcm_0, ax=axs[0])
.colorbar(pcm_1, ax=axs[1])

[0].set_title(f"Class Probability, {model_name}")
[1].set_title(f"(Normalized) Predictive Uncertainty, {model_name}")


חבר הכל ביחד. ההליך כולו (הדרכה, הערכה וחישוב אי-ודאות) יכול להתבצע בחמש שורות בלבד:

def train_and_test_sngp(train_examples, test_examples):
= DeepResNetSNGPWithCovReset(**resnet_config)

.fit(train_examples, train_labels, verbose=0, **fit_config)

, sngp_covmat = sngp_model(test_examples, return_covmat=True)
= compute_posterior_mean_probability(sngp_logits, sngp_covmat)

return sngp_probs
sngp_probs = train_and_test_sngp(train_examples, test_examples)

דמיינו את ההסתברות של המחלקה (משמאל) ואת אי הוודאות הניבוי (מימין) של מודל SNGP.

plot_predictions(sngp_probs, model_name="SNGP")


זכרו שבחלקת ההסתברות של הכיתה (משמאל), הצהוב והסגול הם הסתברויות מחלקות. כאשר הוא קרוב לתחום נתוני האימון, SNGP מסווג נכון את הדוגמאות בביטחון גבוה (כלומר, מקצה הסתברות קרובה ל-0 או 1). כאשר הוא רחוק מנתוני האימון, SNGP הופך בהדרגה פחות בטוח, וההסתברות החזויה שלו נעשית קרובה ל-0.5 בעוד שאי הוודאות של המודל (המנורמלת) עולה ל-1.

השווה זאת למשטח אי הוודאות של המודל הדטרמיניסטי:

plot_predictions(resnet_probs, model_name="Deterministic")


כפי שהוזכר קודם לכן, מודל דטרמיניסטי אינו מודע למרחק . אי הוודאות שלה מוגדרת על ידי המרחק של דוגמה הבדיקה מגבול ההחלטה. זה מוביל את המודל לייצר תחזיות בטוחות מדי עבור הדוגמאות מחוץ לתחום (אדום).

השוואה לגישות אי ודאות אחרות

סעיף זה משווה את חוסר הוודאות של SNGP עם נשירה של מונטה קרלו ואנסמבל Deep .

שתי השיטות הללו מבוססות על ממוצע של מונטה קרלו של מספר מעברים קדימה של מודלים דטרמיניסטיים. תחילה הגדר את גודל האנסמבל M.

num_ensemble = 10

נשירה של מונטה קרלו

בהינתן רשת עצבית מאומנת עם שכבות נשירה, נשירת מונטה קרלו מחשבת את ההסתברות החזויה הממוצעת


על ידי ממוצע של מעברים קדימה המאפשרים נשירה מרובים {logitm(x)}m=1M.

def mc_dropout_sampling(test_examples):
# Enable dropout during inference.
return resnet_model(test_examples, training=True)
# Monte Carlo dropout inference.
= [mc_dropout_sampling(test_examples) for _ in range(num_ensemble)]
= [tf.nn.softmax(dropout_logits, axis=-1)[:, 0] for dropout_logits in dropout_logit_samples]
= tf.reduce_mean(dropout_prob_samples, axis=0)
dropout_probs = tf.reduce_mean(dropout_prob_samples, axis=0)
plot_predictions(dropout_probs, model_name="MC Dropout")


אנסמבל עמוק

אנסמבל עמוק היא שיטה חדישה (אך יקרה) לאי ודאות בלמידה עמוקה. כדי להכשיר אנסמבל Deep, תחילה אמנו חברי אנסמבל M .

# Deep ensemble training
= []
for _ in range(num_ensemble):
= DeepResNet(**resnet_config)
.compile(optimizer=optimizer, loss=loss, metrics=metrics)
.fit(train_examples, train_labels, verbose=0, **fit_config)  


אסוף לוגיטים וחשב את ההסתברות החזויה הממוצעת E(p(x))=1Mm=1Msoftmax(logitm(x)).

# Deep ensemble inference
= [model(test_examples) for model in resnet_ensemble]
= [tf.nn.softmax(logits, axis=-1)[:, 0] for logits in ensemble_logit_samples]
= tf.reduce_mean(ensemble_prob_samples, axis=0)
plot_predictions(ensemble_probs, model_name="Deep ensemble")


גם MC Dropout וגם Deep Ensemble משפרים את יכולת חוסר הוודאות של הדגם על ידי הפיכת גבול ההחלטה לפחות בטוח. עם זאת, שניהם יורשים את המגבלה של הרשת העמוקה הדטרמיניסטית בהיעדר מודעות למרחק.


במדריך זה יש לך:

  • הטמיע מודל SNGP על מסווג עמוק כדי לשפר את המודעות למרחקים שלו.
  • אימן את מודל SNGP מקצה לקצה באמצעות Keras model.fit() API.
  • דמיין את התנהגות אי הוודאות של SNGP.
  • השווה את התנהגות אי הוודאות בין SNGP, נשירה של מונטה קרלו ודגמי אנסמבל עמוקים.

