تعلم عميق للغة مع عدم اليقين مع BERT-SNGP

عرض على TensorFlow.org تشغيل في Google Colab عرض على جيثب تحميل دفتر انظر نموذج TF Hub

في البرنامج التعليمي SNGP ، تعلمت كيفية بناء نموذج SNGP على قمة شبكة عميقة متبقية لتحسين قدرتها على قياس عدم اليقين. في هذا البرنامج التعليمي ، ستطبق SNGP على مهمة فهم اللغة الطبيعية (NLU) من خلال بنائها فوق مشفر BERT العميق لتحسين قدرة نموذج NLU العميق في اكتشاف الاستعلامات خارج النطاق.

على وجه التحديد ، سوف:

  • بناء BERT-SNGP ، نموذج BERT المعزز SNGP.
  • قم بتحميل مجموعة بيانات الكشف عن النية خارج النطاق (OOS) لـ CLINC .
  • تدريب نموذج BERT-SNGP.
  • تقييم أداء نموذج BERT-SNGP في معايرة عدم اليقين والكشف خارج المجال.

بخلاف CLINC OOS ، تم تطبيق نموذج SNGP على مجموعات البيانات واسعة النطاق مثل اكتشاف سمية Jigsaw ، ومجموعات بيانات الصور مثل CIFAR-100 و ImageNet . للحصول على نتائج معيارية لـ SNGP وطرق عدم اليقين الأخرى ، بالإضافة إلى التنفيذ عالي الجودة مع البرامج النصية للتدريب / التقييم الشامل ، يمكنك التحقق من معيار Uncertainty Baselines .

يثبت

pip uninstall -y tensorflow tf-text
pip install -U tensorflow-text-nightly
pip install -U tf-nightly
pip install -U tf-models-nightly
import matplotlib.pyplot as plt

import sklearn.metrics
import sklearn.calibration

import tensorflow_hub as hub
import tensorflow_datasets as tfds

import numpy as np
import tensorflow as tf

import official.nlp.modeling.layers as layers
import official.nlp.optimization as optimization
/tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow_addons/utils/ensure_tf_install.py:43: UserWarning: You are currently using a nightly version of TensorFlow (2.9.0-dev20220203). 
TensorFlow Addons offers no support for the nightly versions of TensorFlow. Some things might work, some other might not. 
If you encounter a bug, do not file an issue on GitHub.
  UserWarning,

يحتاج هذا البرنامج التعليمي إلى تشغيل وحدة معالجة الرسومات بكفاءة. تحقق مما إذا كانت وحدة معالجة الرسومات متاحة.

tf.__version__
'2.9.0-dev20220203'
gpus = tf.config.list_physical_devices('GPU')
gpus
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]
assert gpus, """
  No GPU(s) found! This tutorial will take many hours to run without a GPU.

  You may hit this error if the installed tensorflow package is not
  compatible with the CUDA and CUDNN versions."""

أولاً ، قم بتطبيق مصنف BERT قياسي باتباع نص التصنيف باستخدام برنامج BERT التعليمي. سنستخدم تشفير قاعدة BERT ، و ClassificationHead المدمج كمصنف.

نموذج BERT القياسي

بناء نموذج SNGP

لتنفيذ نموذج BERT-SNGP ، ما عليك سوى استبدال ClassificationHead بـ GaussianProcessClassificationHead المدمج. تم بالفعل تعبئة التطبيع الطيفي مسبقًا في رأس التصنيف هذا. كما هو الحال في البرنامج التعليمي SNGP ، أضف رد اتصال إعادة تعيين التباين المشترك إلى النموذج ، بحيث يقوم النموذج تلقائيًا بإعادة تعيين مقدر التغاير في بداية حقبة جديدة لتجنب حساب نفس البيانات مرتين.

class ResetCovarianceCallback(tf.keras.callbacks.Callback):

  def on_epoch_begin(self, epoch, logs=None):
    """Resets covariance matrix at the begining of the epoch."""
    if epoch > 0:
      self.model.classifier.reset_covariance_matrix()
class SNGPBertClassifier(BertClassifier):

  def make_classification_head(self, num_classes, inner_dim, dropout_rate):
    return layers.GaussianProcessClassificationHead(
        num_classes=num_classes, 
        inner_dim=inner_dim,
        dropout_rate=dropout_rate,
        gp_cov_momentum=-1,
        temperature=30.,
        **self.classifier_kwargs)

  def fit(self, *args, **kwargs):
    """Adds ResetCovarianceCallback to model callbacks."""
    kwargs['callbacks'] = list(kwargs.get('callbacks', []))
    kwargs['callbacks'].append(ResetCovarianceCallback())

    return super().fit(*args, **kwargs)

قم بتحميل مجموعة بيانات CLINC OOS

الآن قم بتحميل مجموعة بيانات الكشف عن النية CLINC OOS . تحتوي مجموعة البيانات هذه على 15000 استعلامًا منطوقًا للمستخدم جمعت أكثر من 150 فئة نوايا ، كما أنها تحتوي على 1000 جملة خارج المجال (OOD) لا تغطيها أي من الفئات المعروفة.

(clinc_train, clinc_test, clinc_test_oos), ds_info = tfds.load(
    'clinc_oos', split=['train', 'test', 'test_oos'], with_info=True, batch_size=-1)

قم بعمل القطار واختبار البيانات.

train_examples = clinc_train['text']
train_labels = clinc_train['intent']

# Makes the in-domain (IND) evaluation data.
ind_eval_data = (clinc_test['text'], clinc_test['intent'])

قم بإنشاء مجموعة بيانات تقييم OOD. لهذا ، اجمع بين بيانات الاختبار داخل المجال clinc_test وبيانات خارج المجال clinc_test_oos . سنقوم أيضًا بتعيين التسمية 0 للأمثلة داخل المجال ، والتسمية 1 للأمثلة خارج المجال.

test_data_size = ds_info.splits['test'].num_examples
oos_data_size = ds_info.splits['test_oos'].num_examples

# Combines the in-domain and out-of-domain test examples.
oos_texts = tf.concat([clinc_test['text'], clinc_test_oos['text']], axis=0)
oos_labels = tf.constant([0] * test_data_size + [1] * oos_data_size)

# Converts into a TF dataset.
ood_eval_dataset = tf.data.Dataset.from_tensor_slices(
    {"text": oos_texts, "label": oos_labels})

تدريب وتقييم

قم أولاً بإعداد تكوينات التدريب الأساسية.

TRAIN_EPOCHS = 3
TRAIN_BATCH_SIZE = 32
EVAL_BATCH_SIZE = 256

optimizer = bert_optimizer(learning_rate=1e-4)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metrics = tf.metrics.SparseCategoricalAccuracy()
fit_configs = dict(batch_size=TRAIN_BATCH_SIZE,
                   epochs=TRAIN_EPOCHS,
                   validation_batch_size=EVAL_BATCH_SIZE, 
                   validation_data=ind_eval_data)
sngp_model = SNGPBertClassifier()
sngp_model.compile(optimizer=optimizer, loss=loss, metrics=metrics)
sngp_model.fit(train_examples, train_labels, **fit_configs)
Epoch 1/3
469/469 [==============================] - 219s 427ms/step - loss: 1.0725 - sparse_categorical_accuracy: 0.7870 - val_loss: 0.4358 - val_sparse_categorical_accuracy: 0.9380
Epoch 2/3
469/469 [==============================] - 198s 422ms/step - loss: 0.0885 - sparse_categorical_accuracy: 0.9797 - val_loss: 0.2424 - val_sparse_categorical_accuracy: 0.9518
Epoch 3/3
469/469 [==============================] - 199s 424ms/step - loss: 0.0259 - sparse_categorical_accuracy: 0.9951 - val_loss: 0.1927 - val_sparse_categorical_accuracy: 0.9642
<keras.callbacks.History at 0x7fe24c0a7090>

تقييم أداء OOD

قم بتقييم مدى قدرة النموذج على اكتشاف الاستعلامات غير المألوفة خارج النطاق. لإجراء تقييم صارم ، استخدم مجموعة بيانات تقييم OOD ood_eval_dataset التي تم إنشاؤها مسبقًا.

يحسب احتمالات OOD كـ \(1 - p(x)\)، حيث \(p(x)=softmax(logit(x))\) هو الاحتمال التنبئى.

sngp_probs, ood_labels = oos_predict(sngp_model, ood_eval_dataset)
ood_probs = 1 - sngp_probs

قم الآن بتقييم مدى جودة توقع درجة عدم اليقين الخاصة ood_probs خارج المجال. قم أولاً بحساب المنطقة تحت منحنى الاسترجاع الدقيق (AUPRC) لاحتمالية OOD مقابل دقة الكشف عن OOD.

precision, recall, _ = sklearn.metrics.precision_recall_curve(ood_labels, ood_probs)
auprc = sklearn.metrics.auc(recall, precision)
print(f'SNGP AUPRC: {auprc:.4f}')
SNGP AUPRC: 0.9039

يتطابق هذا مع أداء SNGP المبلغ عنه في معيار CLINC OOS ضمن خطوط أساس عدم اليقين .

بعد ذلك ، افحص جودة النموذج في معايرة الارتياب ، أي ما إذا كان الاحتمال التنبئي للنموذج يتوافق مع دقته التنبؤية. يعتبر النموذج الذي تمت معايرته جيدًا جديرًا بالثقة ، لأنه ، على سبيل المثال ، يعني احتماله التنبئي \(p(x)=0.8\) أن النموذج صحيح بنسبة 80٪ من الوقت.

prob_true, prob_pred = sklearn.calibration.calibration_curve(
    ood_labels, ood_probs, n_bins=10, strategy='quantile')
plt.plot(prob_pred, prob_true)

plt.plot([0., 1.], [0., 1.], c='k', linestyle="--")
plt.xlabel('Predictive Probability')
plt.ylabel('Predictive Accuracy')
plt.title('Calibration Plots, SNGP')

plt.show()

بي إن جي

الموارد والقراءات الإضافية