Halaman ini menjelaskan tanda tangan umum yang harus diterapkan oleh modul dalam format TF1 Hub untuk tugas yang menerima input teks. (Untuk format TF2 SavedModel , lihat analogi SavedModel API .)
Vektor fitur teks
Modul vektor fitur teks membuat representasi vektor padat dari fitur teks. Ia menerima sekumpulan string berbentuk [batch_size]
dan memetakannya ke tensor bentuk float32
[batch_size, N]
. Ini sering disebut penyematan teks dalam dimensi N
.
Penggunaan dasar
embed = hub.Module("path/to/module")
representations = embed([
"A long sentence.",
"single-word",
"http://example.com"])
Penggunaan kolom fitur
feature_columns = [
hub.text_embedding_column("comment", "path/to/module", trainable=False),
]
input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
estimator.train(input_fn, max_steps=100)
Catatan
Modul telah dilatih sebelumnya pada domain dan/atau tugas yang berbeda, dan oleh karena itu tidak semua modul vektor fitur teks cocok untuk masalah Anda. Misalnya: beberapa modul bisa saja dilatih dalam satu bahasa.
Antarmuka ini tidak memungkinkan penyesuaian representasi teks pada TPU, karena memerlukan modul untuk membuat instance pemrosesan string dan variabel yang dapat dilatih secara bersamaan.