- 説明:
LibriTTS は、Google Speech および Google Brain チーム メンバーの支援を受けて Heiga Zen によって作成された、24kHz のサンプリング レートで約 585 時間の読み上げられた英語音声のマルチスピーカー英語コーパスです。 LibriTTS コーパスは、TTS 研究用に設計されています。これは、LibriSpeech コーパスの元の資料 (LibriVox の mp3 オーディオ ファイルと Project Gutenberg のテキスト ファイル) から派生したものです。 LibriSpeech コーパスとの主な違いは次のとおりです。
- オーディオ ファイルのサンプリング レートは 24kHz です。
- スピーチは文の区切りで分割されます。
- オリジナルと正規化されたテキストの両方が含まれています。
- 文脈情報 (例えば、隣接する文) を抽出できます。
- バックグラウンド ノイズが大きい発話は除外されます。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: http://www.openslr.org/60
ソースコード:
tfds.datasets.libritts.Builder
バージョン:
-
1.0.1
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
78.42 GiB
データセットサイズ:
271.41 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'dev_clean' | 5,736 |
'dev_other' | 4,613 |
'test_clean' | 4,837 |
'test_other' | 5,120 |
'train_clean100' | 33,236 |
'train_clean360' | 116,500 |
'train_other500' | 205,044 |
- 機能構造:
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int64),
'text_normalized': Text(shape=(), dtype=string),
'text_original': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
chapter_id | テンソル | int64 | ||
ID | テンソル | ストリング | ||
Speaker_id | テンソル | int64 | ||
スピーチ | オーディオ | (なし、) | int64 | |
text_normalized | 文章 | ストリング | ||
text_original | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('text_normalized', 'speech')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{zen2019libritts,
title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
booktitle = {Proc. Interspeech},
month = sep,
year = {2019},
doi = {10.21437/Interspeech.2019-2441},
}