ljspeech

  • 説明:

これは、1 人の話者が 7 冊のノンフィクションの本からの文章を読んでいる 13,100 の短いオーディオ クリップで構成される、パブリック ドメインの音声データセットです。クリップごとにトランスクリプションが提供されます。クリップの長さは 1 ~ 10 秒で、合計の長さは約 24 時間です。

テキストは 1884 年から 1964 年の間に出版され、パブリック ドメインになっています。音声は 2016 年から 2017 年に LibriVox プロジェクトによって録音され、パブリック ドメインでもあります。

スプリット
'train' 13,100
  • 機能構造:
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
IDテンソルストリング
スピーチオーディオ(なし、) int16
文章文章ストリング
text_normalized文章ストリング
  • 引用
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}