- 説明:
キーワード スポッティング システムのトレーニングと評価に役立つように設計された、話し言葉の音声データセット。その主な目標は、バックグラウンド ノイズや無関係な発話による誤検出をできるだけ少なくして、10 個のターゲット ワードのセットから 1 つの単語が話されたことを検出する小さなモデルを構築してテストする方法を提供することです。トレーニングと検証セットでは、「不明」というラベルが、ターゲットの単語やバックグラウンド ノイズのラベルよりもはるかに一般的であることに注意してください。リリース バージョンとの違いの 1 つは、サイレント セグメントの処理です。テスト セットでは無音セグメントは通常の 1 秒のファイルですが、トレーニングでは "background_noise" フォルダーの下に長いセグメントとして提供されます。ここでは、これらのバックグラウンド ノイズを 1 秒のクリップに分割し、ファイルの 1 つを検証セット用に保持します。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://arxiv.org/abs/1804.03209
バージョン:
-
0.0.3
(デフォルト): dtype=tf.int16 でオーディオ データ型を修正します。
-
ダウンロードサイズ:
2.37 GiB
データセットサイズ:
8.17 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- 機能構造:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
オーディオ | オーディオ | (なし、) | int16 | |
ラベル | クラスラベル | int64 |
監視されたキー(
as_supervised
docを参照):('audio', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}