MoveNet: نموذج الكشف عن الوضع بدقة فائقة وسرعة فائقة.

MoveNet هو سريع جدا ونموذج دقيق أن يكشف 17 النقاط الرئيسية من الجسم. يتم تقديم هذا النموذج على TF المحور مع اثنين من المتغيرات، والمعروفة باسم البرق والرعد. Lightning مخصص للتطبيقات الحرجة في زمن الانتقال ، في حين أن Thunder مخصص للتطبيقات التي تتطلب دقة عالية. يعمل كلا الطرازين بشكل أسرع من الوقت الفعلي (30+ إطارًا في الثانية) على معظم أجهزة الكمبيوتر المكتبية والمحمولة والهواتف الحديثة ، مما يثبت أنه ضروري لتطبيقات اللياقة والصحة والعافية الحية.


يرشدك Colab خلال تفاصيل كيفية تحميل MoveNet وتشغيل الاستدلال على صورة الإدخال والفيديو أدناه.

تقدير وضع الإنسان مع MoveNet

مكتبات التصور والواردات

pip install -q imageio
pip install -q opencv-python
pip install -q git+
import tensorflow as tf
import tensorflow_hub as hub
from tensorflow_docs.vis import embed
import numpy as np
import cv2

# Import matplotlib libraries
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
import matplotlib.patches as patches

# Some modules to display an animation using imageio.
import imageio
from IPython.display import HTML, display

وظائف المساعد للتصور

نموذج التحميل من مركز TF

model_name = "movenet_lightning"

if "tflite" in model_name:
  if "movenet_lightning_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_f16" in model_name:
    !wget -q -O model.tflite
    input_size = 256
  elif "movenet_lightning_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 192
  elif "movenet_thunder_int8" in model_name:
    !wget -q -O model.tflite
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  # Initialize the TFLite interpreter
  interpreter = tf.lite.Interpreter(model_path="model.tflite")

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    # TF Lite format expects tensor type of uint8.
    input_image = tf.cast(input_image, dtype=tf.uint8)
    input_details = interpreter.get_input_details()
    output_details = interpreter.get_output_details()
    interpreter.set_tensor(input_details[0]['index'], input_image.numpy())
    # Invoke inference.
    # Get the model prediction.
    keypoints_with_scores = interpreter.get_tensor(output_details[0]['index'])
    return keypoints_with_scores

  if "movenet_lightning" in model_name:
    module = hub.load("")
    input_size = 192
  elif "movenet_thunder" in model_name:
    module = hub.load("")
    input_size = 256
    raise ValueError("Unsupported model name: %s" % model_name)

  def movenet(input_image):
    """Runs detection on an input image.

      input_image: A [1, height, width, 3] tensor represents the input image
        pixels. Note that the height/width should already be resized and match the
        expected input resolution of the model before passing into this function.

      A [1, 1, 17, 3] float numpy array representing the predicted keypoint
      coordinates and scores.
    model = module.signatures['serving_default']

    # SavedModel format expects tensor type of int32.
    input_image = tf.cast(input_image, dtype=tf.int32)
    # Run model inference.
    outputs = model(input_image)
    # Output is a [1, 1, 17, 3] tensor.
    keypoints_with_scores = outputs['output_0'].numpy()
    return keypoints_with_scores

مثال على صورة واحدة

توضح هذه الدورة المثال العمل minumum من تشغيل نموذج على صورة واحدة للتنبؤ 17 النقاط الرئيسية الإنسان.

تحميل صورة الإدخال

curl -o input_image.jpeg --silent
# Load the input image.
image_path = 'input_image.jpeg'
image =
image = tf.image.decode_jpeg(image)

تشغيل الاستدلال

# Resize and pad the image to keep the aspect ratio and fit the expected size.
input_image = tf.expand_dims(image, axis=0)
input_image = tf.image.resize_with_pad(input_image, input_size, input_size)

# Run model inference.
keypoints_with_scores = movenet(input_image)

# Visualize the predictions with image.
display_image = tf.expand_dims(image, axis=0)
display_image = tf.cast(tf.image.resize_with_pad(
    display_image, 1280, 1280), dtype=tf.int32)
output_overlay = draw_prediction_on_image(
    np.squeeze(display_image.numpy(), axis=0), keypoints_with_scores)

plt.figure(figsize=(5, 5))
_ = plt.axis('off')

بي إن جي

مثال على الفيديو (تسلسل الصورة)

يوضح هذا القسم كيفية تطبيق الاقتصاص الذكي استنادًا إلى الاكتشافات من الإطار السابق عندما يكون الإدخال عبارة عن سلسلة من الإطارات. يتيح ذلك للنموذج تكريس اهتمامه وموارده للموضوع الرئيسي ، مما يؤدي إلى جودة تنبؤ أفضل بكثير دون التضحية بالسرعة.

خوارزمية الاقتصاص

تحميل تسلسل صورة الإدخال

wget -q -O dance.gif
# Load the input image.
image_path = 'dance.gif'
image =
image = tf.image.decode_gif(image)

تشغيل الاستدلال باستخدام خوارزمية الاقتصاص

# Load the input image.
num_frames, image_height, image_width, _ = image.shape
crop_region = init_crop_region(image_height, image_width)

output_images = []
bar = display(progress(0, num_frames-1), display_id=True)
for frame_idx in range(num_frames):
  keypoints_with_scores = run_inference(
      movenet, image[frame_idx, :, :, :], crop_region,
      crop_size=[input_size, input_size])
      image[frame_idx, :, :, :].numpy().astype(np.int32),
      keypoints_with_scores, crop_region=None,
      close_figure=True, output_image_height=300))
  crop_region = determine_crop_region(
      keypoints_with_scores, image_height, image_width)
  bar.update(progress(frame_idx, num_frames-1))

# Prepare gif visualization.
output = np.stack(output_images, axis=0)
to_gif(output, fps=10)
