このチュートリアルでは、テキストを読み込んで前処理する 2 つの方法を紹介します。
- まず、Keras ユーティリティと前処理レイヤーを使用します。これには、データを
が含まれます。TensorFlow を初めて使用する場合は、これらから始める必要があります。 - 次に、
などの TensorFlow Text APIを使用して、よりきめ細かい制御のためにデータを前処理します。
pip install "tensorflow-text==2.8.*"
import collections
import pathlib
import tensorflow as tf
from tensorflow.keras import layers
from tensorflow.keras import losses
from tensorflow.keras import utils
from tensorflow.keras.layers import TextVectorization
import tensorflow_datasets as tfds
import tensorflow_text as tf_text
例 1: StackOverflow の質問のタグを予測する
最初の例として、StackOverflow からプログラミングの質問のデータセットをダウンロードします。それぞれの質問 (「ディクショナリを値で並べ替えるにはどうすればよいですか?」) は、1 つのタグ (Python
) でラベルされています。このタスクでは、質問のタグを予測するモデルを開発します。これは、マルチクラス分類の例です。マルチクラス分類は、重要で広く適用できる機械学習の問題です。
を使用して Stack Overflow データセットをダウンロードし、ディレクトリの構造を調べます。
data_url = 'https://storage.googleapis.com/download.tensorflow.org/data/stack_overflow_16k.tar.gz'
dataset_dir = utils.get_file(
dataset_dir = pathlib.Path(dataset_dir).parent
Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/stack_overflow_16k.tar.gz 6053888/6053168 [==============================] - 0s 0us/step 6062080/6053168 [==============================] - 0s 0us/step
[PosixPath('/tmp/.keras/test'), PosixPath('/tmp/.keras/train'), PosixPath('/tmp/.keras/README.md'), PosixPath('/tmp/.keras/stack_overflow_16k.tar.gz')]
train_dir = dataset_dir/'train'
[PosixPath('/tmp/.keras/train/csharp'), PosixPath('/tmp/.keras/train/javascript'), PosixPath('/tmp/.keras/train/python'), PosixPath('/tmp/.keras/train/java')]
および train/javascript
ディレクトリには、多くのテキストファイルが含まれています。それぞれが Stack Overflow の質問です。
sample_file = train_dir/'python/1755.txt'
with open(sample_file) as f:
why does this blank program print true x=true.def stupid():. x=false.stupid().print x
ユーティリティを使用して、ラベル付きの tf.data.Dataset
を始めて使用する場合は、tf.data: TensorFlow 入力パイプラインを構築するを参照してください。
API は、次のようなディレクトリ構造を想定しています。
機械学習実験を実行するときは、データセットをトレーニング、検証、および、テストの 3 つに分割することをお勧めします。
Stack Overflow データセットは、すでにトレーニングセットとテストセットに分割されていますが、検証セットはありません。
を 0.2
(20%) に設定し、トレーニングデータを 80:20 に分割して検証セットを作成します。
batch_size = 32
seed = 42
raw_train_ds = utils.text_dataset_from_directory(
Found 8000 files belonging to 4 classes. Using 6400 files for training.
前のセル出力が示すように、トレーニングフォルダには 8,000 の例があり、そのうち 80% (6,400) をトレーニングに使用します。tf.data.Dataset
を Model.fit
注意: 分類問題の難易度を上げるために、データセットの作成者は、プログラミングの質問で、Python、CSharp、JavaScript、Java という単語を blank に置き換えました。
for text_batch, label_batch in raw_train_ds.take(1):
for i in range(10):
print("Question: ", text_batch.numpy()[i])
print("Label:", label_batch.numpy()[i])
または 3
です。これらのどれがどの文字列ラベルに対応するかを確認するには、データセットの class_names
for i, label in enumerate(raw_train_ds.class_names):
print("Label", i, "corresponds to", label)
Label 0 corresponds to csharp Label 1 corresponds to java Label 2 corresponds to javascript Label 3 corresponds to python
を使って検証およびテスト用データセットを作成します。トレーニング用セットの残りの 1,600 件のレビューを検証に使用します。
注意: tf.keras.utils.text_dataset_from_directory
の validation_split
および subset
# Create a validation set.
raw_val_ds = utils.text_dataset_from_directory(
Found 8000 files belonging to 4 classes. Using 1600 files for validation.
test_dir = dataset_dir/'test'
# Create a test set.
raw_test_ds = utils.text_dataset_from_directory(
Found 8000 files belonging to 4 classes.
- 標準化とは、テキストを前処理することを指します。通常、句読点や HTML 要素を削除して、データセットを簡素化します。
- トークン化とは、文字列をトークンに分割することです(たとえば、空白で分割することにより、文を個々の単語に分割します)。
- ベクトル化とは、トークンを数値に変換して、ニューラルネットワークに入力できるようにすることです。
API ドキュメントを参照してください。
注意点 :
- デフォルトの標準化では、テキストが小文字に変換され、句読点が削除されます (
)。 - デフォルトのトークナイザーは空白で分割されます (
)。 - デフォルトのベクトル化モードは
です (output_mode='int'
などの他のモードを使用して、bag-of-word モデルを構築することもできます。
を使用した標準化、トークン化、およびベクトル化について詳しくみるために、2 つのモデルを作成します。
- まず、
ベクトル化モードを使用して、bag-of-words モデルを構築します。 - 次に、1D ConvNet で
VOCAB_SIZE = 10000
binary_vectorize_layer = TextVectorization(
モードの場合、最大語彙サイズに加えて、明示的な最大シーケンス長 (MAX_SEQUENCE_LENGTH
) を設定する必要があります。これにより、レイヤーはシーケンスを正確に output_sequence_length
int_vectorize_layer = TextVectorization(
注意: TextVectorization.adapt
を呼び出すときは、トレーニング用データのみを使用することが重要です (テスト用セットを使用すると情報が漏洩します)。
# Make a text-only dataset (without labels), then call `TextVectorization.adapt`.
train_text = raw_train_ds.map(lambda text, labels: text)
def binary_vectorize_text(text, label):
text = tf.expand_dims(text, -1)
return binary_vectorize_layer(text), label
def int_vectorize_text(text, label):
text = tf.expand_dims(text, -1)
return int_vectorize_layer(text), label
# Retrieve a batch (of 32 reviews and labels) from the dataset.
text_batch, label_batch = next(iter(raw_train_ds))
first_question, first_label = text_batch[0], label_batch[0]
print("Question", first_question)
print("Label", first_label)
Question tf.Tensor(b'"what is the difference between these two ways to create an element? var a = document.createelement(\'div\');..a.id = ""mydiv"";...and..var a = document.createelement(\'div\').id = ""mydiv"";...what is the difference between them such that the first one works and the second one doesn\'t?"\n', shape=(), dtype=string) Label tf.Tensor(2, shape=(), dtype=int32)
print("'binary' vectorized question:",
binary_vectorize_text(first_question, first_label)[0])
'binary' vectorized question: tf.Tensor([[1. 1. 0. ... 0. 0. 0.]], shape=(1, 10000), dtype=float32)
print("'int' vectorized question:",
int_vectorize_text(first_question, first_label)[0])
'int' vectorized question: tf.Tensor( [[ 55 6 2 410 211 229 121 895 4 124 32 245 43 5 1 1 5 1 1 6 2 410 211 191 318 14 2 98 71 188 8 2 199 71 178 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]], shape=(1, 250), dtype=int64)
の 'binary'
モードは、入力に少なくとも 1 回存在するトークンを示す配列を返しますが、'int'
レイヤーで TextVectorization.get_vocabulary
を呼び出すことにより、各整数が対応するトークン (文字列) を検索できます。
print("1289 ---> ", int_vectorize_layer.get_vocabulary()[1289])
print("313 ---> ", int_vectorize_layer.get_vocabulary()[313])
print("Vocabulary size: {}".format(len(int_vectorize_layer.get_vocabulary())))
1289 ---> roman 313 ---> source Vocabulary size: 10000
最後の前処理ステップとして、トレーニング、検証、およびデータセットのテストのために前に作成した TextVectorization
binary_train_ds = raw_train_ds.map(binary_vectorize_text)
binary_val_ds = raw_val_ds.map(binary_vectorize_text)
binary_test_ds = raw_test_ds.map(binary_vectorize_text)
int_train_ds = raw_train_ds.map(int_vectorize_text)
int_val_ds = raw_val_ds.map(int_vectorize_text)
int_test_ds = raw_test_ds.map(int_vectorize_text)
以下は、データを読み込むときに I/O がブロックされないようにするために使用する必要がある 2 つの重要な方法です。
以上の 2 つの方法とデータをディスクにキャッシュする方法についての詳細は、データパフォーマンスガイドの プリフェッチを参照してください。
def configure_dataset(dataset):
return dataset.cache().prefetch(buffer_size=AUTOTUNE)
binary_train_ds = configure_dataset(binary_train_ds)
binary_val_ds = configure_dataset(binary_val_ds)
binary_test_ds = configure_dataset(binary_test_ds)
int_train_ds = configure_dataset(int_train_ds)
int_val_ds = configure_dataset(int_val_ds)
int_test_ds = configure_dataset(int_test_ds)
のベクトル化されたデータの場合、単純な bag-of-words 線形モデルを定義し、それを構成してトレーニングします。
binary_model = tf.keras.Sequential([layers.Dense(4)])
history = binary_model.fit(
binary_train_ds, validation_data=binary_val_ds, epochs=10)
Epoch 1/10 200/200 [==============================] - 2s 4ms/step - loss: 1.1221 - accuracy: 0.6439 - val_loss: 0.9157 - val_accuracy: 0.7738 Epoch 2/10 200/200 [==============================] - 1s 3ms/step - loss: 0.7801 - accuracy: 0.8213 - val_loss: 0.7511 - val_accuracy: 0.7956 Epoch 3/10 200/200 [==============================] - 1s 3ms/step - loss: 0.6284 - accuracy: 0.8589 - val_loss: 0.6653 - val_accuracy: 0.8069 Epoch 4/10 200/200 [==============================] - 1s 3ms/step - loss: 0.5349 - accuracy: 0.8863 - val_loss: 0.6118 - val_accuracy: 0.8200 Epoch 5/10 200/200 [==============================] - 1s 3ms/step - loss: 0.4688 - accuracy: 0.9045 - val_loss: 0.5751 - val_accuracy: 0.8281 Epoch 6/10 200/200 [==============================] - 1s 3ms/step - loss: 0.4184 - accuracy: 0.9153 - val_loss: 0.5485 - val_accuracy: 0.8331 Epoch 7/10 200/200 [==============================] - 1s 3ms/step - loss: 0.3782 - accuracy: 0.9281 - val_loss: 0.5284 - val_accuracy: 0.8363 Epoch 8/10 200/200 [==============================] - 1s 3ms/step - loss: 0.3449 - accuracy: 0.9350 - val_loss: 0.5128 - val_accuracy: 0.8381 Epoch 9/10 200/200 [==============================] - 1s 3ms/step - loss: 0.3166 - accuracy: 0.9425 - val_loss: 0.5005 - val_accuracy: 0.8425 Epoch 10/10 200/200 [==============================] - 1s 3ms/step - loss: 0.2923 - accuracy: 0.9486 - val_loss: 0.4908 - val_accuracy: 0.8413
ベクトル化レイヤーを使用して、1D ConvNet を構築します。
def create_model(vocab_size, num_labels):
model = tf.keras.Sequential([
layers.Embedding(vocab_size, 64, mask_zero=True),
layers.Conv1D(64, 5, padding="valid", activation="relu", strides=2),
return model
# `vocab_size` is `VOCAB_SIZE + 1` since `0` is used additionally for padding.
int_model = create_model(vocab_size=VOCAB_SIZE + 1, num_labels=4)
history = int_model.fit(int_train_ds, validation_data=int_val_ds, epochs=5)
Epoch 1/5 200/200 [==============================] - 2s 4ms/step - loss: 1.1424 - accuracy: 0.5008 - val_loss: 0.7508 - val_accuracy: 0.7188 Epoch 2/5 200/200 [==============================] - 1s 4ms/step - loss: 0.6282 - accuracy: 0.7600 - val_loss: 0.5454 - val_accuracy: 0.8019 Epoch 3/5 200/200 [==============================] - 1s 4ms/step - loss: 0.3834 - accuracy: 0.8789 - val_loss: 0.4846 - val_accuracy: 0.8150 Epoch 4/5 200/200 [==============================] - 1s 4ms/step - loss: 0.2168 - accuracy: 0.9495 - val_loss: 0.4828 - val_accuracy: 0.8188 Epoch 5/5 200/200 [==============================] - 1s 4ms/step - loss: 0.1108 - accuracy: 0.9805 - val_loss: 0.5063 - val_accuracy: 0.8181
2 つのモデルを比較します。
print("Linear model on binary vectorized data:")
Linear model on binary vectorized data: Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense (Dense) (None, 4) 40004 ================================================================= Total params: 40,004 Trainable params: 40,004 Non-trainable params: 0 _________________________________________________________________ None
print("ConvNet model on int vectorized data:")
ConvNet model on int vectorized data: Model: "sequential_1" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= embedding (Embedding) (None, None, 64) 640064 conv1d (Conv1D) (None, None, 64) 20544 global_max_pooling1d (Globa (None, 64) 0 lMaxPooling1D) dense_1 (Dense) (None, 4) 260 ================================================================= Total params: 660,868 Trainable params: 660,868 Non-trainable params: 0 _________________________________________________________________ None
binary_loss, binary_accuracy = binary_model.evaluate(binary_test_ds)
int_loss, int_accuracy = int_model.evaluate(int_test_ds)
print("Binary model accuracy: {:2.2%}".format(binary_accuracy))
print("Int model accuracy: {:2.2%}".format(int_accuracy))
250/250 [==============================] - 1s 3ms/step - loss: 0.5173 - accuracy: 0.8148 250/250 [==============================] - 1s 2ms/step - loss: 0.5244 - accuracy: 0.8070 Binary model accuracy: 81.48% Int model accuracy: 80.70%
注意: このサンプルデータセットは、かなり単純な分類問題を表しています。より複雑なデータセットと問題は、前処理戦略とモデルアーキテクチャに微妙ながら重要な違いをもたらします。さまざまなアプローチを比較するために、さまざまなハイパーパラメータとエポックを試してみてください。
レイヤーをデータセットに適用しました。モデルで生の文字列を処理できるようにする場合 (たとえば、展開を簡素化するため)、モデル内に TextVectorization
export_model = tf.keras.Sequential(
[binary_vectorize_layer, binary_model,
# Test it with `raw_test_ds`, which yields raw strings
loss, accuracy = export_model.evaluate(raw_test_ds)
print("Accuracy: {:2.2%}".format(binary_accuracy))
250/250 [==============================] - 1s 4ms/step - loss: 0.5173 - accuracy: 0.8148 Accuracy: 81.48%
def get_string_labels(predicted_scores_batch):
predicted_int_labels = tf.math.argmax(predicted_scores_batch, axis=1)
predicted_labels = tf.gather(raw_train_ds.class_names, predicted_int_labels)
return predicted_labels
inputs = [
"how do I extract keys from a dict into a list?", # 'python'
"debug public static void main(string[] args) {...}", # 'java'
predicted_scores = export_model.predict(inputs)
predicted_labels = get_string_labels(predicted_scores)
for input, label in zip(inputs, predicted_labels):
print("Question: ", input)
print("Predicted label: ", label.numpy())
Question: how do I extract keys from a dict into a list? Predicted label: b'python' Question: debug public static void main(string[] args) {...} Predicted label: b'java'
を適用する場所を選択する際に性能の違いに留意する必要があります。モデルの外部で使用すると、GPU でトレーニングするときに非同期 CPU 処理とデータのバッファリングを行うことができます。したがって、GPU でモデルをトレーニングしている場合は、モデルの開発中に最高のパフォーマンスを得るためにこのオプションを使用し、デプロイの準備ができたらモデル内に TextVectorization
例 2: イーリアスの翻訳者を予測する
を使用してテキストファイルから例を読み込み、TensorFlow Text を使用してデータを前処理する例を示します。この例では、ホーマーのイーリアスの 3 つの異なる英語翻訳を使用し、与えられた 1 行のテキストから翻訳者を識別するようにモデルをトレーニングします。
3 つのテキストの翻訳者は次のとおりです。
- ウィリアム・クーパー — テキスト
- エドワード、ダービー伯爵 — テキスト
- サミュエル・バトラー — テキスト
DIRECTORY_URL = 'https://storage.googleapis.com/download.tensorflow.org/data/illiad/'
FILE_NAMES = ['cowper.txt', 'derby.txt', 'butler.txt']
for name in FILE_NAMES:
text_dir = utils.get_file(name, origin=DIRECTORY_URL + name)
parent_dir = pathlib.Path(text_dir).parent
では、ファイルのすべてのコンテンツが 1 つの例として扱われていました。ここでは、tf.data.TextLineDataset
を使用します。これは、テキストファイルから tf.data.Dataset
は、主に行ベースのテキストデータ (詩やエラーログなど) に役立ちます。
を使用して、それぞれにラベラー関数を適用します。これにより、データセット内のすべての例が繰り返され、 (example, label
) ペアが返されます。
def labeler(example, index):
return example, tf.cast(index, tf.int64)
labeled_data_sets = []
for i, file_name in enumerate(FILE_NAMES):
lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))
labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
を使用し、これらのラベル付きデータセットを 1 つのデータセットに結合し、Dataset.shuffle
all_labeled_data = labeled_data_sets[0]
for labeled_dataset in labeled_data_sets[1:]:
all_labeled_data = all_labeled_data.concatenate(labeled_dataset)
all_labeled_data = all_labeled_data.shuffle(
BUFFER_SIZE, reshuffle_each_iteration=False)
の各エントリは 1 つのデータポイントに対応します。
for text, label in all_labeled_data.take(10):
print("Sentence: ", text.numpy())
print("Label:", label.numpy())
Sentence: b"the man's right shoulder, and then stuck in the ground. He stood stock" Label: 2 Sentence: b'For yet a child he left me, when he fell' Label: 1 Sentence: b'Save me, my brother! Pity me! Thy steeds' Label: 0 Sentence: b'prepared the mess she bade them drink it. When they had done so and had' Label: 2 Sentence: b'exhorts him to return to the field of battle. An interview succeeds' Label: 0 Sentence: b'Then said Achilles, "Son of Atreus, king of men Agamemnon, see to these' Label: 2 Sentence: b'The hand of Menelaus, and while all' Label: 0 Sentence: b"A huge bull's hide, all drench'd and soak'd with grease;" Label: 1 Sentence: b'He sat, where sat the other Powers divine,' Label: 0 Sentence: b'And in my cause lies slain, of any Greek' Label: 1
を使用してテキストデータセットを前処理する代わりに、TensorFlow Text API を使用してデータを標準化およびトークン化し、語彙を作成し、tf.lookup.StaticVocabularyTable
を使用してトークンを整数にマッピングし、モデルにフィードします。(詳細については TensorFlow Text を参照してください)。
- TensorFlow Text は、さまざまなトークナイザーを提供します。この例では、
を使用してデータセットをトークン化します。 Dataset.map
tokenizer = tf_text.UnicodeScriptTokenizer()
def tokenize(text, unused_label):
lower_case = tf_text.case_fold_utf8(text)
return tokenizer.tokenize(lower_case)
tokenized_ds = all_labeled_data.map(tokenize)
for text_batch in tokenized_ds.take(5):
print("Tokens: ", text_batch.numpy())
Tokens: [b'the' b'man' b"'" b's' b'right' b'shoulder' b',' b'and' b'then' b'stuck' b'in' b'the' b'ground' b'.' b'he' b'stood' b'stock'] Tokens: [b'for' b'yet' b'a' b'child' b'he' b'left' b'me' b',' b'when' b'he' b'fell'] Tokens: [b'save' b'me' b',' b'my' b'brother' b'!' b'pity' b'me' b'!' b'thy' b'steeds'] Tokens: [b'prepared' b'the' b'mess' b'she' b'bade' b'them' b'drink' b'it' b'.' b'when' b'they' b'had' b'done' b'so' b'and' b'had'] Tokens: [b'exhorts' b'him' b'to' b'return' b'to' b'the' b'field' b'of' b'battle' b'.' b'an' b'interview' b'succeeds']
次に、トークンを頻度で並べ替え、上位の VOCAB_SIZE
tokenized_ds = configure_dataset(tokenized_ds)
vocab_dict = collections.defaultdict(lambda: 0)
for toks in tokenized_ds.as_numpy_iterator():
for tok in toks:
vocab_dict[tok] += 1
vocab = sorted(vocab_dict.items(), key=lambda x: x[1], reverse=True)
vocab = [token for token, count in vocab]
vocab = vocab[:VOCAB_SIZE]
vocab_size = len(vocab)
print("Vocab size: ", vocab_size)
print("First five vocab entries:", vocab[:5])
Vocab size: 10000 First five vocab entries: [b',', b'the', b'and', b"'", b'of']
を作成します。トークンを [2
, vocab_size + 2
] の範囲の整数にマップします。TextVectorization
は語彙外 (OOV) トークンを示すために予約されています。
keys = vocab
values = range(2, len(vocab) + 2) # Reserve `0` for padding, `1` for OOV tokens.
init = tf.lookup.KeyValueTensorInitializer(
keys, values, key_dtype=tf.string, value_dtype=tf.int64)
num_oov_buckets = 1
vocab_table = tf.lookup.StaticVocabularyTable(init, num_oov_buckets)
def preprocess_text(text, label):
standardized = tf_text.case_fold_utf8(text)
tokenized = tokenizer.tokenize(standardized)
vectorized = vocab_table.lookup(tokenized)
return vectorized, label
1 つの例でこれを試して、出力を確認します。
example_text, example_label = next(iter(all_labeled_data))
print("Sentence: ", example_text.numpy())
vectorized_text, example_label = preprocess_text(example_text, example_label)
print("Vectorized sentence: ", vectorized_text.numpy())
Sentence: b"the man's right shoulder, and then stuck in the ground. He stood stock" Vectorized sentence: [ 3 86 5 29 274 527 2 4 33 2749 13 3 191 7 12 108 3286]
all_encoded_data = all_labeled_data.map(preprocess_text)
Keras TextVectorization
train_data = all_encoded_data.skip(VALIDATION_SIZE).shuffle(BUFFER_SIZE)
validation_data = all_encoded_data.take(VALIDATION_SIZE)
train_data = train_data.padded_batch(BATCH_SIZE)
validation_data = validation_data.padded_batch(BATCH_SIZE)
および train_data
は (example, label
) ペアのコレクションではなく、バッチのコレクションです。各バッチは、配列として表される (多くの例、多くのラベル) のペアです。
sample_text, sample_labels = next(iter(validation_data))
print("Text batch shape: ", sample_text.shape)
print("Label batch shape: ", sample_labels.shape)
print("First text example: ", sample_text[0])
print("First label example: ", sample_labels[0])
Text batch shape: (64, 19) Label batch shape: (64,) First text example: tf.Tensor( [ 3 86 5 29 274 527 2 4 33 2749 13 3 191 7 12 108 3286 0 0], shape=(19,), dtype=int64) First label example: tf.Tensor(2, shape=(), dtype=int64)
パディングに 0 を使用し、語彙外 (OOV) トークンに 1 を使用するため、語彙のサイズが 2 つ増えました。
vocab_size += 2
train_data = configure_dataset(train_data)
validation_data = configure_dataset(validation_data)
model = create_model(vocab_size=vocab_size, num_labels=3)
history = model.fit(train_data, validation_data=validation_data, epochs=3)
Epoch 1/3 697/697 [==============================] - 28s 9ms/step - loss: 0.5163 - accuracy: 0.7686 - val_loss: 0.3744 - val_accuracy: 0.8406 Epoch 2/3 697/697 [==============================] - 3s 4ms/step - loss: 0.2777 - accuracy: 0.8872 - val_loss: 0.3690 - val_accuracy: 0.8472 Epoch 3/3 697/697 [==============================] - 3s 4ms/step - loss: 0.1862 - accuracy: 0.9295 - val_loss: 0.4152 - val_accuracy: 0.8382
loss, accuracy = model.evaluate(validation_data)
print("Loss: ", loss)
print("Accuracy: {:2.2%}".format(accuracy))
79/79 [==============================] - 1s 2ms/step - loss: 0.4152 - accuracy: 0.8382 Loss: 0.41523823142051697 Accuracy: 83.82%
モデルが生の文字列を入力として受け取ることができるようにするには、カスタム前処理関数と同じ手順を実行する TextVectorization
レイヤーを作成します。すでに語彙をトレーニングしているので、新しい語彙をトレーニングする TextVectorization.adapt
preprocess_layer = TextVectorization(
export_model = tf.keras.Sequential(
[preprocess_layer, model,
# Create a test dataset of raw strings.
test_ds = all_labeled_data.take(VALIDATION_SIZE).batch(BATCH_SIZE)
test_ds = configure_dataset(test_ds)
loss, accuracy = export_model.evaluate(test_ds)
print("Loss: ", loss)
print("Accuracy: {:2.2%}".format(accuracy))
2022-12-15 01:18:17.427116: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: sequential_4/text_vectorization_2/UnicodeScriptTokenize/Assert_1/AssertGuard/branch_executed/_185 79/79 [==============================] - 6s 7ms/step - loss: 0.5736 - accuracy: 0.7764 Loss: 0.5736407041549683 Accuracy: 77.64%
inputs = [
"Join'd to th' Ionians with their flowing robes,", # Label: 1
"the allies, and his armour flashed about him so that he seemed to all", # Label: 2
"And with loud clangor of his arms he fell.", # Label: 0
predicted_scores = export_model.predict(inputs)
predicted_labels = tf.math.argmax(predicted_scores, axis=1)
for input, label in zip(inputs, predicted_labels):
print("Question: ", input)
print("Predicted label: ", label.numpy())
2022-12-15 01:18:20.841752: W tensorflow/core/grappler/optimizers/loop_optimizer.cc:907] Skipping loop optimization for Merge node with control input: sequential_4/text_vectorization_2/UnicodeScriptTokenize/Assert_1/AssertGuard/branch_executed/_185 Question: Join'd to th' Ionians with their flowing robes, Predicted label: 1 Question: the allies, and his armour flashed about him so that he seemed to all Predicted label: 2 Question: And with loud clangor of his arms he fell. Predicted label: 0
TensorFlow Datasets (TFDS) を使用して、より多くのデータセットをダウンロードする
TensorFlow Dataset からより多くのデータセットをダウンロードできます。
この例では、IMDB 大規模映画レビューデータセットを使用して、感情分類のモデルをトレーニングします。
# Training set.
train_ds = tfds.load(
# Validation set.
val_ds = tfds.load(
for review_batch, label_batch in val_ds.take(1):
for i in range(5):
print("Review: ", review_batch[i].numpy())
print("Label: ", label_batch[i].numpy())
Review: b"Instead, go to the zoo, buy some peanuts and feed 'em to the monkeys. Monkeys are funny. People with amnesia who don't say much, just sit there with vacant eyes are not all that funny.<br /><br />Black comedy? There isn't a black person in it, and there isn't one funny thing in it either.<br /><br />Walmart buys these things up somehow and puts them on their dollar rack. It's labeled Unrated. I think they took out the topless scene. They may have taken out other stuff too, who knows? All we know is that whatever they took out, isn't there any more.<br /><br />The acting seemed OK to me. There's a lot of unfathomables tho. It's supposed to be a city? It's supposed to be a big lake? If it's so hot in the church people are fanning themselves, why are they all wearing coats?" Label: 0 Review: b'Well, was Morgan Freeman any more unusual as God than George Burns? This film sure was better than that bore, "Oh, God". I was totally engrossed and LMAO all the way through. Carrey was perfect as the out of sorts anchorman wannabe, and Aniston carried off her part as the frustrated girlfriend in her usual well played performance. I, for one, don\'t consider her to be either ugly or untalented. I think my favorite scene was when Carrey opened up the file cabinet thinking it could never hold his life history. See if you can spot the file in the cabinet that holds the events of his bathroom humor: I was rolling over this one. Well written and even better played out, this comedy will go down as one of this funnyman\'s best.' Label: 1 Review: b'I remember stumbling upon this special while channel-surfing in 1965. I had never heard of Barbra before. When the show was over, I thought "This is probably the best thing on TV I will ever see in my life." 42 years later, that has held true. There is still nothing so amazing, so honestly astonishing as the talent that was displayed here. You can talk about all the super-stars you want to, this is the most superlative of them all!<br /><br />You name it, she can do it. Comedy, pathos, sultry seduction, ballads, Barbra is truly a story-teller. Her ability to pull off anything she attempts is legendary. But this special was made in the beginning, and helped to create the legend that she quickly became. In spite of rising so far in such a short time, she has fulfilled the promise, revealing more of her talents as she went along. But they are all here from the very beginning. You will not be disappointed in viewing this.' Label: 1 Review: b"Firstly, I would like to point out that people who have criticised this film have made some glaring errors. Anything that has a rating below 6/10 is clearly utter nonsense.<br /><br />Creep is an absolutely fantastic film with amazing film effects. The actors are highly believable, the narrative thought provoking and the horror and graphical content extremely disturbing. <br /><br />There is much mystique in this film. Many questions arise as the audience are revealed to the strange and freakish creature that makes habitat in the dark rat ridden tunnels. How was 'Craig' created and what happened to him?<br /><br />A fantastic film with a large chill factor. A film with so many unanswered questions and a film that needs to be appreciated along with others like 28 Days Later, The Bunker, Dog Soldiers and Deathwatch.<br /><br />Look forward to more of these fantastic films!!" Label: 1 Review: b"I'm sorry but I didn't like this doc very much. I can think of a million ways it could have been better. The people who made it obviously don't have much imagination. The interviews aren't very interesting and no real insight is offered. The footage isn't assembled in a very informative way, either. It's too bad because this is a movie that really deserves spellbinding special features. One thing I'll say is that Isabella Rosselini gets more beautiful the older she gets. All considered, this only gets a '4.'" Label: 0
注意: これは二項分類の問題であるため、モデルには tf.keras.losses.SparseCategoricalCrossentropy
の代わりに tf.keras.losses.BinaryCrossentropy
vectorize_layer = TextVectorization(
# Make a text-only dataset (without labels), then call `TextVectorization.adapt`.
train_text = train_ds.map(lambda text, labels: text)
def vectorize_text(text, label):
text = tf.expand_dims(text, -1)
return vectorize_layer(text), label
train_ds = train_ds.map(vectorize_text)
val_ds = val_ds.map(vectorize_text)
# Configure datasets for performance as before.
train_ds = configure_dataset(train_ds)
val_ds = configure_dataset(val_ds)
model = create_model(vocab_size=VOCAB_SIZE + 1, num_labels=1)
Model: "sequential_5" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= embedding_2 (Embedding) (None, None, 64) 640064 conv1d_2 (Conv1D) (None, None, 64) 20544 global_max_pooling1d_2 (Glo (None, 64) 0 balMaxPooling1D) dense_3 (Dense) (None, 1) 65 ================================================================= Total params: 660,673 Trainable params: 660,673 Non-trainable params: 0 _________________________________________________________________
history = model.fit(train_ds, validation_data=val_ds, epochs=3)
Epoch 1/3 313/313 [==============================] - 7s 6ms/step - loss: 0.5375 - accuracy: 0.6665 - val_loss: 0.3738 - val_accuracy: 0.8266 Epoch 2/3 313/313 [==============================] - 1s 4ms/step - loss: 0.3038 - accuracy: 0.8673 - val_loss: 0.3151 - val_accuracy: 0.8632 Epoch 3/3 313/313 [==============================] - 1s 4ms/step - loss: 0.1885 - accuracy: 0.9276 - val_loss: 0.3167 - val_accuracy: 0.8624
loss, accuracy = model.evaluate(val_ds)
print("Loss: ", loss)
print("Accuracy: {:2.2%}".format(accuracy))
79/79 [==============================] - 0s 2ms/step - loss: 0.3167 - accuracy: 0.8624 Loss: 0.3166657090187073 Accuracy: 86.24%
export_model = tf.keras.Sequential(
[vectorize_layer, model,
# 0 --> negative review
# 1 --> positive review
inputs = [
"This is a fantastic movie.",
"This is a bad movie.",
"This movie was so bad that it was good.",
"I will never say yes to watching this movie.",
predicted_scores = export_model.predict(inputs)
predicted_labels = [int(round(x[0])) for x in predicted_scores]
for input, label in zip(inputs, predicted_labels):
print("Question: ", input)
print("Predicted label: ", label)
Question: This is a fantastic movie. Predicted label: 1 Question: This is a bad movie. Predicted label: 0 Question: This movie was so bad that it was good. Predicted label: 0 Question: I will never say yes to watching this movie. Predicted label: 1
このチュートリアルでは、テキストを読み込んで前処理するいくつかの方法を示しました。次のステップとして、以下のような TensorFlow Text テキスト前処理 チュートリアルをご覧ください。
TensorFlow Datasets でも新しいデータセットを見つけることができます。また、tf.data