Ver no TensorFlow.org | Executar no Google Colab | Ver no GitHub | Baixar caderno | Veja o modelo TF Hub |
Este colab demostrates a Universal Sentença modelo Encoder CMLM usando o SentEval toolkit, que é uma biblioteca para medir a qualidade de embeddings sentença. O kit de ferramentas SentEval inclui um conjunto diversificado de tarefas downstream que são capazes de avaliar o poder de generalização de um modelo de incorporação e avaliar as propriedades linguísticas codificadas.
Execute os dois primeiros blocos de código para configurar o ambiente, no terceiro bloco de código você pode escolher uma tarefa SentEval para avaliar o modelo. Um tempo de execução de GPU é recomendado para executar este Colab.
Para saber mais sobre a Universal Sentença modelo Encoder CMLM, consulte https://openreview.net/forum?id=WDVD4lUCTzU
Instale dependências
pip install --quiet tensorflow-text
pip install --quiet torch==1.8.1
Baixe SentEval e dados de tarefas
Esta etapa faz o download do SentEval do github e executa o script de dados para fazer o download dos dados da tarefa. A conclusão pode demorar até 5 minutos.
Instale SentEval e baixe os dados da tarefa
rm -rf ./SentEval
git clone https://github.com/facebookresearch/SentEval.git
cd $PWD/SentEval/data/downstream && bash get_transfer_data.bash > /dev/null 2>&1
Cloning into 'SentEval'... remote: Enumerating objects: 691, done.[K remote: Counting objects: 100% (2/2), done.[K remote: Compressing objects: 100% (2/2), done.[K remote: Total 691 (delta 0), reused 0 (delta 0), pack-reused 689[K Receiving objects: 100% (691/691), 33.25 MiB | 21.21 MiB/s, done. Resolving deltas: 100% (434/434), done.
Execute uma tarefa de avaliação SentEval
O seguinte bloco de código executa uma tarefa SentEval e produz os resultados, escolha uma das seguintes tarefas para avaliar o modelo USE CMLM:
MR CR SUBJ MPQA SST TREC MRPC SICK-E
Selecione um modelo, parâmetros e tarefa para executar. Os parâmetros de prototipagem rápida podem ser usados para reduzir o tempo de computação para resultados mais rápidos.
Ele normalmente leva 5-15 minutos para completar uma tarefa com os parâmetros 'Prototipagem Rápida' e até uma hora com os "melhores mais lentas, o desempenho dos parâmetros.
params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
'tenacity': 3, 'epoch_size': 2}
Para um melhor resultado, use o mais lento 'mais lento, melhor desempenho' params, computação pode demorar até 1 hora:
params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
'tenacity': 5, 'epoch_size': 6}
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
import sys
sys.path.append(f'{os.getcwd()}/SentEval')
import tensorflow as tf
# Prevent TF from claiming all GPU memory so there is some left for pytorch.
gpus = tf.config.list_physical_devices('GPU')
if gpus:
# Memory growth needs to be the same across GPUs.
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)
import tensorflow_hub as hub
import tensorflow_text
import senteval
import time
PATH_TO_DATA = f'{os.getcwd()}/SentEval/data'
MODEL = 'https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1'
PARAMS = 'rapid prototyping'
TASK = 'CR'
params_prototyping = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params_prototyping['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
'tenacity': 3, 'epoch_size': 2}
params_best = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params_best['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
'tenacity': 5, 'epoch_size': 6}
params = params_best if PARAMS == 'slower, best performance' else params_prototyping
preprocessor = hub.KerasLayer(
"https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3")
encoder = hub.KerasLayer(
"https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1")
inputs = tf.keras.Input(shape=tf.shape(''), dtype=tf.string)
outputs = encoder(preprocessor(inputs))
model = tf.keras.Model(inputs=inputs, outputs=outputs)
def prepare(params, samples):
return
def batcher(_, batch):
batch = [' '.join(sent) if sent else '.' for sent in batch]
return model.predict(tf.constant(batch))["default"]
se = senteval.engine.SE(params, batcher, prepare)
print("Evaluating task %s with %s parameters" % (TASK, PARAMS))
start = time.time()
results = se.eval(TASK)
end = time.time()
print('Time took on task %s : %.1f. seconds' % (TASK, end - start))
print(results)
Evaluating task CR with rapid prototyping parameters Time took on task CR : 46.5. seconds {'devacc': 90.42, 'acc': 88.98, 'ndev': 3775, 'ntest': 3775}
Saber mais
- Encontre mais modelos de texto de incorporação no TensorFlow Hub
- Veja também o Multilingual Universal Sentença modelo Encoder CMLM
- Confira outros modelos Sentença Encoder Universal
Referência
- Ziyi Yang, Yinfei Yang, Daniel Cer, Jax Law, Eric Darve. Aprendizagem de representações de frases universais com o modelo condicional de linguagem mascarada. Novembro de 2020