텐서플로우 데이터세트

TFDS는 TensorFlow, Jax 및 기타 기계 학습 프레임워크와 함께 사용할 준비가 된 데이터 세트 모음을 제공합니다.

데이터 다운로드 및 준비를 결정적으로 처리하고 tf.data.Dataset (또는 np.array ) 구성을 처리합니다.

TFDS는 두 가지 패키지로 존재합니다.

  • pip install tensorflow-datasets : 몇 개월마다 릴리스되는 안정적인 버전입니다.
  • pip install tfds-nightly : 매일 릴리스되며 데이터 세트의 마지막 버전이 포함됩니다.

이 colab은 tfds-nightly 를 사용합니다.

pip install -q tfds-nightly tensorflow matplotlib
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import tensorflow_datasets as tfds

사용 가능한 데이터세트 찾기

모든 데이터세트 빌더는 tfds.core.DatasetBuilder 의 하위 클래스입니다. 사용 가능한 빌더 목록을 얻으려면 tfds.list_builders() 를 사용하거나 카탈로그 를 참조하십시오.


데이터세트 로드


데이터세트를 로드하는 가장 쉬운 방법은 tfds.load 입니다. 다음 작업을 수행합니다.

  1. 데이터를 다운로드하고 tfrecord 파일로 저장합니다.
  2. tf.data.Dataset 를 로드하고 tfrecord 을 만듭니다.
ds = tfds.load('mnist', split='train', shuffle_files=True)
assert isinstance(ds, tf.data.Dataset)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>
2022-02-07 04:07:40.542243: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

몇 가지 일반적인 주장:

  • split= : 읽을 분할(예: 'train' , ['train', 'test'] , 'train[80%:]' ,...). 분할 API 가이드를 참조하세요.
  • shuffle_files= : 각 epoch 간에 파일을 섞을지 여부를 제어합니다(TFDS는 큰 데이터 세트를 여러 개의 작은 파일에 저장합니다).
  • data_dir= : 데이터셋이 저장되는 위치(기본값은 ~/tensorflow_datasets/ )
  • with_info=True : 데이터세트 메타데이터가 포함된 tfds.core.DatasetInfo 를 반환합니다.
  • download=False : 다운로드 비활성화


tfds.loadtfds.core.DatasetBuilder 주위의 얇은 래퍼입니다. tfds.core.DatasetBuilder API를 사용하여 동일한 출력을 얻을 수 있습니다.

builder = tfds.builder('mnist')
# 1. Create the tfrecord files (no-op if already exists)
# 2. Load the `tf.data.Dataset`
ds = builder.as_dataset(split='train', shuffle_files=True)
<_OptionsDataset element_spec={'image': TensorSpec(shape=(28, 28, 1), dtype=tf.uint8, name=None), 'label': TensorSpec(shape=(), dtype=tf.int64, name=None)}>

tfds build CLI

특정 데이터 세트를 생성하려면 tfds 명령줄 을 사용할 수 있습니다. 예를 들어:

tfds build mnist

사용 가능한 플래그 는 문서 를 참조하십시오.

데이터세트 반복


기본적으로 tf.data.Dataset 객체는 dict tf.Tensor 를 포함합니다:

ds = tfds.load('mnist', split='train')
ds = ds.take(1)  # Only take a single example

for example in ds:  # example is `{'image': tf.Tensor, 'label': tf.Tensor}`
  image = example["image"]
  label = example["label"]
  print(image.shape, label)
['image', 'label']
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:41.932638: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

dict 키 이름과 구조를 찾으려면 카탈로그의 데이터 세트 설명서를 참조하십시오 . 예: mnist 문서 .

튜플( as_supervised=True )

as_supervised=True 를 사용하면 감독 데이터 세트 대신 튜플 (features, label) 을 얻을 수 있습니다.

ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in ds:  # example is (image, label)
  print(image.shape, label)
(28, 28, 1) tf.Tensor(4, shape=(), dtype=int64)
2022-02-07 04:07:42.593594: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

numpy로 ( tfds.as_numpy )

tfds.as_numpy 를 사용하여 다음을 변환합니다.

  • tf.Tensor -> np.array
  • tf.data.Dataset -> Iterator[Tree[np.array]] ( Tree 는 임의의 중첩된 Dict , Tuple 일 수 있음 )
ds = tfds.load('mnist', split='train', as_supervised=True)
ds = ds.take(1)

for image, label in tfds.as_numpy(ds):
  print(type(image), type(label), label)
<class 'numpy.ndarray'> <class 'numpy.int64'> 4
2022-02-07 04:07:43.220027: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.

일괄 처리된 tf.Tensor( batch_size=-1 )

batch_size=-1 을 사용하면 전체 데이터 세트를 단일 배치로 로드할 수 있습니다.

이것은 as_supervised=Truetfds.as_numpy 와 결합하여 데이터를 (np.array, np.array) 로 가져올 수 있습니다.

image, label = tfds.as_numpy(tfds.load(

print(type(image), image.shape)
<class 'numpy.ndarray'> (10000, 28, 28, 1)

데이터 세트가 메모리에 들어갈 수 있고 모든 예제가 동일한 모양을 갖도록 주의하십시오.

데이터세트 벤치마킹

데이터 세트를 벤치마킹하는 것은 모든 iterable(예: tf.data.Dataset , tfds.as_numpy ,...)에 대한 간단한 tfds.benchmark 호출입니다.

ds = tfds.load('mnist', split='train')
ds = ds.batch(32).prefetch(1)

tfds.benchmark(ds, batch_size=32)
tfds.benchmark(ds, batch_size=32)  # Second epoch much faster due to auto-caching
************ Summary ************

Examples/sec (First included) 42295.82 ex/sec (total: 60000 ex, 1.42 sec)
Examples/sec (First only) 131.50 ex/sec (total: 32 ex, 0.24 sec)
Examples/sec (First excluded) 51026.08 ex/sec (total: 59968 ex, 1.18 sec)

************ Summary ************

Examples/sec (First included) 204278.25 ex/sec (total: 60000 ex, 0.29 sec)
Examples/sec (First only) 1444.72 ex/sec (total: 32 ex, 0.02 sec)
Examples/sec (First excluded) 220821.83 ex/sec (total: 59968 ex, 0.27 sec)
  • batch_size= kwarg를 사용하여 배치 크기당 결과를 정규화하는 것을 잊지 마십시오.
  • 요약하면 첫 번째 워밍업 배치는 tf.data.Dataset 추가 설정 시간(예: 버퍼 초기화 등)을 캡처하기 위해 다른 배치와 분리됩니다.
  • TFDS 자동 캐싱 으로 인해 두 번째 반복이 얼마나 더 빨라졌는지 확인하십시오.
  • tfds.benchmark 는 추가 분석을 위해 검사할 수 있는 tfds.core.BenchmarkResult 를 반환합니다.

종단 간 파이프라인 구축

더 나아가려면 다음을 볼 수 있습니다.



tf.data.Dataset 객체는 Colab 에서 시각화할 tfds.as_dataframe 을 사용하여 pandas.DataFrame 으로 변환할 수 있습니다.

  • 이미지, 오디오, 텍스트, 비디오 등을 시각화하기 위해 tfds.as_dataframe tfds.core.DatasetInfo 추가합니다.
  • x 예제만 표시하려면 ds.take(x) 를 사용하십시오. pandas.DataFrame 은 메모리 내 전체 데이터 세트를 로드하며 표시하는 데 비용이 많이 들 수 있습니다.
ds, info = tfds.load('mnist', split='train', with_info=True)

tfds.as_dataframe(ds.take(4), info)
2022-02-07 04:07:47.001241: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


tfds.show_examplesmatplotlib.figure.Figure 를 반환합니다(지금은 이미지 데이터 세트만 지원됨).

ds, info = tfds.load('mnist', split='train', with_info=True)

fig = tfds.show_examples(ds, info)
2022-02-07 04:07:48.083706: W tensorflow/core/kernels/data/cache_dataset_ops.cc:768] The calling iterator did not fully read the dataset being cached. In order to avoid unexpected truncation of the dataset, the partially cached contents of the dataset  will be discarded. This can happen if you have an input pipeline similar to `dataset.cache().take(k).repeat()`. You should use `dataset.take(k).cache().repeat()` instead.


데이터세트 메타데이터에 액세스

모든 빌더에는 데이터세트 메타데이터가 포함된 tfds.core.DatasetInfo 개체가 포함됩니다.

다음을 통해 액세스할 수 있습니다.

ds, info = tfds.load('mnist', with_info=True)
builder = tfds.builder('mnist')
info = builder.info

데이터세트 정보에는 데이터세트에 대한 추가 정보(버전, 인용, 홈페이지, 설명 등)가 포함됩니다.

    The MNIST database of handwritten digits.
    download_size=11.06 MiB,
    dataset_size=21.00 MiB,
        'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
    supervised_keys=('image', 'label'),
        'test': <SplitInfo num_examples=10000, num_shards=1>,
        'train': <SplitInfo num_examples=60000, num_shards=1>,
      title={MNIST handwritten digit database},
      author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
      journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},

기능 메타데이터(레이블 이름, 이미지 모양,...)

tfds.features.FeatureDict 액세스:

    'image': Image(shape=(28, 28, 1), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

클래스 수, 레이블 이름:

print(info.features["label"].int2str(7))  # Human readable version (8 -> 'cat')
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

모양, dtypes:

{'image': (28, 28, 1), 'label': ()}
{'image': tf.uint8, 'label': tf.int64}
(28, 28, 1)
<dtype: 'uint8'>

분할 메타데이터(예: 분할 이름, 예제 수 등)

tfds.core.SplitDict 액세스:

{'test': <SplitInfo num_examples=10000, num_shards=1>, 'train': <SplitInfo num_examples=60000, num_shards=1>}

사용 가능한 분할:

['test', 'train']

개별 분할에 대한 정보 얻기:


또한 subsplit API와 함께 작동합니다.

[FileInstruction(filename='gs://tensorflow-datasets/datasets/mnist/3.0.1/mnist-train.tfrecord-00000-of-00001', skip=9000, take=36000, num_examples=36000)]

문제 해결

수동 다운로드(다운로드 실패 시)

어떤 이유로 다운로드에 실패하는 경우(예: 오프라인,...). 항상 수동으로 데이터를 직접 다운로드하여 manual_dir 에 저장할 수 있습니다(기본값은 ~/tensorflow_datasets/download/manual/ 입니다.

다운로드할 URL을 찾으려면 다음을 살펴보세요.

NonMatchingChecksumError 수정

TFDS는 다운로드한 URL의 체크섬을 확인하여 결정성을 보장합니다. NonMatchingChecksumError 가 발생하면 다음을 나타낼 수 있습니다.

  • 웹사이트가 다운되었을 수 있습니다(예: 503 status code ). URL을 확인해주세요.
  • Google 드라이브 URL의 경우 너무 많은 사용자가 동일한 URL에 액세스하면 드라이브에서 다운로드를 거부하는 경우가 있으므로 나중에 다시 시도하세요. 버그 보기
  • 원본 데이터세트 파일이 업데이트되었을 수 있습니다. 이 경우 TFDS 데이터 세트 빌더를 업데이트해야 합니다. 새로운 Github 이슈 또는 PR을 열어주세요:
    • tfds build --register_checksums 를 사용하여 새 체크섬을 등록합니다.
    • 결국 데이터 세트 생성 코드를 업데이트하십시오.
    • 데이터세트 VERSION 업데이트
    • 데이터 세트 업데이트 RELEASE_NOTES : 체크섬이 변경된 원인은 무엇입니까? 일부 예가 변경되었습니까?
    • 데이터세트를 계속 빌드할 수 있는지 확인합니다.
    • PR을 보내주세요


논문에 tensorflow-datasets 를 사용하는 경우 사용된 데이터세트( 데이터세트 카탈로그 에서 찾을 수 있음)와 관련된 인용문 외에 다음 인용문을 포함하세요.

  title = { {TensorFlow Datasets}, A collection of ready-to-use datasets},
  howpublished = {\url{https://www.tensorflow.org/datasets} },