TensorFlow.js モデル

事前トレーニング済みのモデルから、コンピュータ ビジョン、自然言語処理(NLP)、およびその他の一般的な ML タスクをウェブベースやブラウザベースのアプリケーションに追加できます。

ビジョン

画像や動画の特徴を分析し、ブラウザで新たなリアルタイム エクスペリエンスを実現できます。

画像分類

ImageNet データベース(MobileNet)からのラベル付けされた画像を分類します。

オブジェクト検出

1 つの画像内にある複数のオブジェクトをローカライズして識別します(Coco SSD)。

セマンティック セグメンテーション

ブラウザ上でセマンティック セグメンテーションを実行します(DeepLab)。

本文

JavaScript および Node.js 用に最適化された MediaPipe のモデルに基づいて、顔、手、体の主要なポイントとポーズを検出できます。

シンプルな顔検出

カスタム エンコーダ(Blazeface)を備えたシングル ショット検出アーキテクチャを使用して、画像内の顔を検出します。

顔のランドマーク検出

486 か所の 3D 顔ランドマークを予測して人間の顔のおおよそのサーフェス ジオメトリを推定します。

姿勢検出

非典型的な姿勢や高速な体の動きをリアルタイムで検出できる 3 つのモデルのうち、いずれかを使用する場合に使われる統合型の姿勢検出 API です。

人体セグメンテーション

人間と体の部位のセグメンテーションをリアルタイムに行います。

手のポーズ検出

手のひら検出と手指のスケルトン トラッキング モデル。検出された 1 つの手あたり 21 か所の 3D ハンド キーポイントを予測します。

ポートレート深度の推定

人間が写った単一のポートレート画像の深度マップを推定します。

テキスト

BERT などの Transformer エンコーダ アーキテクチャの機能を使用して、ウェブアプリで NLP を利用できます。

自然言語で質問に回答

BERT を使用して、特定の文章の内容に基づいて質問に回答します。

テキストの有害度の検出

コメントが会話に与える可能性のある影響を「きわめて有害」から「まったく無害」までの範囲でスコア付けします(有害度)。

ユニバーサル センテンス エンコーダ

感情分類やテキスト類似度評価などの NLP タスクに使用するために、テキストを埋め込みにエンコードします(ユニバーサル センテンス エンコーダ)。

音声

音声を分類して声を検出し、ウェブアプリのアクションをトリガーできます。

音声コマンド認識

音声コマンド データセット(speech-commands)から 1 秒の音声スニペットを分類します。

一般

すぐに使用できるその他の TensorFlow.js モデルをご確認ください。

KNN 分類器

k 近傍法(KNN)を使用して分類器を作成するためのユーティリティです。転移学習に使用できます。