MoveNet: Model deteksi pose yang sangat cepat dan akurat.

MoveNet adalah ultra cepat dan model yang akurat yang dapat mendeteksi 17 keypoints tubuh. Model ini ditawarkan pada TF Hub dengan dua varian, yang dikenal sebagai Petir dan Guntur. Lightning ditujukan untuk aplikasi yang kritis terhadap latensi, sedangkan Thunder ditujukan untuk aplikasi yang membutuhkan akurasi tinggi. Kedua model berjalan lebih cepat daripada waktu nyata (30+ FPS) di sebagian besar desktop, laptop, dan ponsel modern, yang terbukti penting untuk aplikasi kebugaran, kesehatan, dan kebugaran langsung.


Colab ini memandu Anda melalui detail tentang cara memuat MoveNet, dan menjalankan inferensi pada gambar dan video masukan di bawah.

Estimasi Pose Manusia dengan MoveNet

Pustaka visualisasi & Impor

pip install -q imageio
pip install -q opencv-python
pip install -q git+
import tensorflow as tf
import tensorflow_hub as hub
from tensorflow_docs.vis import embed
import numpy as np
import cv2

# Import matplotlib libraries
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
import matplotlib.patches as patches

# Some modules to display an animation using imageio.
import imageio
from IPython.display import HTML, display

Fungsi pembantu untuk visualisasi

Muat Model dari hub TF

model_name = "movenet_lightning"

if "tflite" in model_name:
  if "movenet_lightning_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 256
  elif "movenet_lightning_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  # Initialize the TFLite interpreter
  interpreter = tf.lite.Interpreter(model_path="model.tflite")

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    # TF Lite format expects tensor type of uint8.
    input_image = tf.cast(input_image, dtype=tf.uint8)
    input_details = interpreter.get_input_details()
    output_details = interpreter.get_output_details()
    interpreter.set_tensor(input_details[0]['index'], input_image.numpy())
    # Invoke inference.
    # Get the model prediction.
    keypoints_with_scores = interpreter.get_tensor(output_details[0]['index'])
    return keypoints_with_scores

  if "movenet_lightning" in model_name:
    module = hub.load("")
    input_size = 192
  elif "movenet_thunder" in model_name:
    module = hub.load("")
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    model = module.signatures['serving_default']

    # SavedModel format expects tensor type of int32.
    input_image = tf.cast(input_image, dtype=tf.int32)
    # Run model inference.
    outputs = model(input_image)
    # Output is a [1, 1, 17, 3] tensor.
    keypoints_with_scores = outputs['output_0'].numpy()
    return keypoints_with_scores

Contoh Gambar Tunggal

Sesi ini menunjukkan contoh kerja minumum menjalankan model pada gambar tunggal untuk memprediksi 17 keypoints manusia.

Muat Gambar Masukan

curl -o input_image.jpeg --silent
# Load the input image.
image_path = 'input_image.jpeg'
image =
image = tf.image.decode_jpeg(image)

Jalankan Inferensi

# Resize and pad the image to keep the aspect ratio and fit the expected size.
input_image = tf.expand_dims(image, axis=0)
input_image = tf.image.resize_with_pad(input_image, input_size, input_size)

# Run model inference.
keypoints_with_scores = movenet(input_image)

# Visualize the predictions with image.
display_image = tf.expand_dims(image, axis=0)
display_image = tf.cast(tf.image.resize_with_pad(
    display_image, 1280, 1280), dtype=tf.int32)
output_overlay = draw_prediction_on_image(
    np.squeeze(display_image.numpy(), axis=0), keypoints_with_scores)

plt.figure(figsize=(5, 5))
_ = plt.axis('off')


Contoh Video (Urutan Gambar)

Bagian ini mendemonstrasikan cara menerapkan pemotongan cerdas berdasarkan deteksi dari bingkai sebelumnya ketika inputnya adalah urutan bingkai. Hal ini memungkinkan model untuk mencurahkan perhatian dan sumber dayanya ke subjek utama, sehingga menghasilkan kualitas prediksi yang jauh lebih baik tanpa mengorbankan kecepatan.

Algoritma Pemangkasan

Muat Urutan Gambar Masukan

wget -q -O dance.gif
# Load the input image.
image_path = 'dance.gif'
image =
image = tf.image.decode_gif(image)

Jalankan Inferensi dengan Algoritma Pemangkasan

# Load the input image.
num_frames, image_height, image_width, _ = image.shape
crop_region = init_crop_region(image_height, image_width)

output_images = []
bar = display(progress(0, num_frames-1), display_id=True)
for frame_idx in range(num_frames):
  keypoints_with_scores = run_inference(
      movenet, image[frame_idx, :, :, :], crop_region,
      crop_size=[input_size, input_size])
      image[frame_idx, :, :, :].numpy().astype(np.int32),
      keypoints_with_scores, crop_region=None,
      close_figure=True, output_image_height=300))
  crop_region = determine_crop_region(
      keypoints_with_scores, image_height, image_width)
  bar.update(progress(frame_idx, num_frames-1))

# Prepare gif visualization.
output = np.stack(output_images, axis=0)
to_gif(output, fps=10)
