- 説明:
これは、1 人の話者が 7 冊のノンフィクションの本からの文章を読んでいる 13,100 の短いオーディオ クリップで構成される、パブリック ドメインの音声データセットです。クリップごとにトランスクリプションが提供されます。クリップの長さは 1 ~ 10 秒で、合計の長さは約 24 時間です。
テキストは 1884 年から 1964 年の間に出版され、パブリック ドメインになっています。音声は 2016 年から 2017 年に LibriVox プロジェクトによって録音され、パブリック ドメインでもあります。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ:https: //keihito.com/LJ-Speech-Dataset/
ソース コード:
tfds.datasets.ljspeech.Builder
バージョン:
-
1.1.1
(デフォルト): dtype=tf.int16 で音声データ型を修正します。
-
ダウンロードサイズ:
2.56 GiB
データセットサイズ:
10.73 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 13,100 |
- 機能構造:
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ID | テンソル | ストリング | ||
スピーチ | オーディオ | (なし、) | int16 | |
文章 | 文章 | ストリング | ||
text_normalized | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('text_normalized', 'speech')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}