リブリッツ

説明:

LibriTTS は、Google Speech および Google Brain チームメンバーの支援を受けて Heiga Zen によって作成された、24kHz のサンプリングレートで約 585 時間の読み上げられた英語音声のマルチスピーカー英語コーパスです。 LibriTTS コーパスは、TTS 研究用に設計されています。これは、LibriSpeech コーパスの元の資料 (LibriVox の mp3 オーディオファイルと Project Gutenberg のテキストファイル) から派生したものです。 LibriSpeech コーパスとの主な違いは次のとおりです。

オーディオファイルのサンプリングレートは 24kHz です。
スピーチは文の区切りで分割されます。
オリジナルと正規化されたテキストの両方が含まれています。
文脈情報 (例えば、隣接する文) を抽出できます。
バックグラウンドノイズが大きい発話は除外されます。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: http://www.openslr.org/60
ソースコード: tfds.datasets.libritts.Builder
バージョン:
- 1.0.1 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 78.42 GiB
データセットサイズ: 271.41 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'dev_clean'`	5,736
`'dev_other'`	4,613
`'test_clean'`	4,837
`'test_other'`	5,120
`'train_clean100'`	33,236
`'train_clean360'`	116,500
`'train_other500'`	205,044

機能構造:

FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
chapter_id	テンソル		int64
ID	テンソル		ストリング
Speaker_id	テンソル		int64
スピーチ	オーディオ	（なし、）	int64
text_normalized	文章		ストリング
text_original	文章		ストリング

監視されたキー( as_supervised docを参照): ('text_normalized', 'speech')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}