Демонстрация универсального кодировщика предложений SentEval

Посмотреть на TensorFlow.org

Запускаем в Google Colab

Посмотреть на GitHub

Скачать блокнот

См. Модель TF Hub

Это colab demostrates в универсальном предложении кодировщика CMLM модели с использованием SentEval инструментария, который представляет собой библиотеку для измерения качества членов предложения вложений. Набор инструментов SentEval включает в себя разнообразный набор последующих задач, которые могут оценить обобщающую способность модели внедрения и оценить закодированные лингвистические свойства.

Запустите первые два блока кода, чтобы настроить среду, в третьем блоке кода вы можете выбрать задачу SentEval для оценки модели. Для запуска этого Colab рекомендуется среда выполнения графического процессора.

Чтобы узнать больше о Универсальном Предложении кодировщика CMLM модели см https://openreview.net/forum?id=WDVD4lUCTzU

Установить зависимости

pip install --quiet tensorflow-text
pip install --quiet torch==1.8.1

Скачать SentEval и данные задачи

На этом шаге загрузите SentEval с github и выполните скрипт данных для загрузки данных задачи. Это может занять до 5 минут.

Установите SentEval и загрузите данные задачи

rm -rf ./SentEval
git clone https://github.com/facebookresearch/SentEval.git
cd $PWD/SentEval/data/downstream && bash get_transfer_data.bash > /dev/null 2>&1

Cloning into 'SentEval'...
remote: Enumerating objects: 691, done.[K
remote: Counting objects: 100% (2/2), done.[K
remote: Compressing objects: 100% (2/2), done.[K
remote: Total 691 (delta 0), reused 0 (delta 0), pack-reused 689[K
Receiving objects: 100% (691/691), 33.25 MiB | 21.21 MiB/s, done.
Resolving deltas: 100% (434/434), done.

Выполнить задачу оценки SentEval

Следующий блок кода выполняет задачу SentEval и выводит результаты, выбирая одну из следующих задач для оценки модели USE CMLM:

MR  CR  SUBJ    MPQA    SST TREC    MRPC    SICK-E

Выберите модель, параметры и задачу для запуска. Параметры быстрого прототипирования можно использовать для сокращения времени вычислений и получения более быстрого результата.

Это обычно занимает 5-15 минут , чтобы выполнить задачу с «быстрого прототипирования» Params и до часа с «медленным, лучшие производительности» Params.

params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
                                 'tenacity': 3, 'epoch_size': 2}

Для лучшего результата используйте медленнее «медленнее, лучшие показатели» Титулы, вычисление может занять до 1 часа:

params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
                                 'tenacity': 5, 'epoch_size': 6}

import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

import sys
sys.path.append(f'{os.getcwd()}/SentEval')

import tensorflow as tf

# Prevent TF from claiming all GPU memory so there is some left for pytorch.
gpus = tf.config.list_physical_devices('GPU')
if gpus:
  # Memory growth needs to be the same across GPUs.
  for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)

import tensorflow_hub as hub
import tensorflow_text
import senteval
import time

PATH_TO_DATA = f'{os.getcwd()}/SentEval/data'
MODEL = 'https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1'
PARAMS = 'rapid prototyping'
TASK = 'CR'

params_prototyping = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params_prototyping['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
                                 'tenacity': 3, 'epoch_size': 2}

params_best = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params_best['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
                                 'tenacity': 5, 'epoch_size': 6}

params = params_best if PARAMS == 'slower, best performance' else params_prototyping

preprocessor = hub.KerasLayer(
    "https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3")
encoder = hub.KerasLayer(
    "https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1")

inputs = tf.keras.Input(shape=tf.shape(''), dtype=tf.string)
outputs = encoder(preprocessor(inputs))

model = tf.keras.Model(inputs=inputs, outputs=outputs)

def prepare(params, samples):
    return

def batcher(_, batch):
    batch = [' '.join(sent) if sent else '.' for sent in batch]
    return model.predict(tf.constant(batch))["default"]


se = senteval.engine.SE(params, batcher, prepare)
print("Evaluating task %s with %s parameters" % (TASK, PARAMS))
start = time.time()
results = se.eval(TASK)
end = time.time()
print('Time took on task %s : %.1f. seconds' % (TASK, end - start))
print(results)

Evaluating task CR with rapid prototyping parameters
Time took on task CR : 46.5. seconds
{'devacc': 90.42, 'acc': 88.98, 'ndev': 3775, 'ntest': 3775}

Выучить больше

Найти больше моделей текст вложения на TensorFlow Hub
Смотрите также Multilingual Универсального Приговор кодировщик CMLM модель
Проверьте другие модели Универсального Предложения кодировщика

Ссылка

Цзыи Ян, Иньфэй Ян, Даниэль Цер, Джакс Лоу, Эрик Дарв. Изучение универсальных представлений предложений с помощью модели условного маскированного языка. Ноябрь 2020