Libro di ricette di testo

Questa pagina elenca una serie di guide e strumenti noti per la risoluzione dei problemi nel dominio del testo con TensorFlow Hub. È un punto di partenza per chiunque desideri risolvere i tipici problemi di ML utilizzando componenti ML pre-addestrati anziché iniziare da zero.

Classificazione

Quando vogliamo prevedere una classe per un dato esempio, ad esempio sentiment , tossicità , categoria di articoli o qualsiasi altra caratteristica.

Grafico di classificazione del testo

I tutorial seguenti risolvono lo stesso compito da diverse prospettive e utilizzando strumenti diversi.

Keras

Classificazione del testo con Keras : esempio per creare un classificatore di sentiment IMDB con Keras e TensorFlow Dataset.

Estimatore

Classificazione del testo : esempio per creare un classificatore di sentiment IMDB con Estimator. Contiene numerosi suggerimenti per il miglioramento e una sezione di confronto dei moduli.

BERT

Previsione del sentiment delle recensioni di film con BERT su TF Hub : mostra come utilizzare un modulo BERT per la classificazione. Include l'uso della libreria bert per la tokenizzazione e la preelaborazione.

Kaggle

Classificazione IMDB su Kaggle : mostra come interagire facilmente con una competizione Kaggle da un Colab, incluso il download dei dati e l'invio dei risultati.

Estimatore Keras TF2 Set di dati TF BERT API Kaggle
Classificazione del testo Fatto
Classificazione del testo con Keras FattoFattoFatto
Previsione del sentiment delle recensioni di film con BERT su TF Hub FattoFatto
Classificazione IMDB su Kaggle FattoFatto

Attività Bangla con incorporamenti FastText

TensorFlow Hub attualmente non offre un modulo in ogni lingua. Il tutorial seguente mostra come sfruttare TensorFlow Hub per una sperimentazione rapida e uno sviluppo ML modulare.

Bangla Article Classifier : mostra come creare un incorporamento di testo TensorFlow Hub riutilizzabile e utilizzarlo per addestrare un classificatore Keras per il set di dati BARD Bangla Article .

Somiglianza semantica

Quando vogliamo scoprire quali frasi sono correlate tra loro nella configurazione zero-shot (nessun esempio di formazione).

Grafica di somiglianza semantica

Di base

Somiglianza semantica : mostra come utilizzare il modulo di codifica delle frasi per calcolare la somiglianza delle frasi.

Multilingue

Somiglianza semantica interlinguistica : mostra come utilizzare uno dei codificatori di frasi interlinguistiche per calcolare la somiglianza delle frasi tra le lingue.

Recupero semantico

Recupero semantico : mostra come utilizzare il codificatore di frasi di domande/risposte per indicizzare una raccolta di documenti per il recupero in base alla somiglianza semantica.

Ingresso del pezzo di frase

Somiglianza semantica con Universal Encoder Lite : mostra come utilizzare i moduli di codifica delle frasi che accettano ID SentencePiece in input anziché nel testo.

Creazione del modulo

Invece di utilizzare solo i moduli su tfhub.dev , ci sono modi per creare i propri moduli. Questo può essere uno strumento utile per una migliore modularità della base di codice ML e per un'ulteriore condivisione.

Wrapping degli incorporamenti pre-addestrati esistenti

Esportatore di moduli di incorporamento del testo : uno strumento per racchiudere un incorporamento pre-addestrato esistente in un modulo. Mostra come includere operazioni di pre-elaborazione del testo nel modulo. Ciò consente di creare un modulo di incorporamento di frasi dagli incorporamenti di token.

Esportatore di moduli di incorporamento testo v2 : come sopra, ma compatibile con TensorFlow 2 ed esecuzione entusiasta.