thư viện

  • Sự miêu tả :

LibriSpeech là một kho tài liệu gồm khoảng 1000 giờ đọc lời nói tiếng Anh với tốc độ lấy mẫu 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc trong dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.

Bạn nên sử dụng giải mã âm thanh lười để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io : pip install tensorflow-io - bật giải mã lười: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Tách ra Ví dụ
'dev_clean' 2.703
'dev_other' 2,864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Cấu trúc tính năng :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
chap_id Tenxơ int64
nhận dạng Tenxơ sợi dây
loa_id Tenxơ int64
lời nói Âm thanh (Không có,) int16
chữ Chữ sợi dây
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/mặc định (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu mặc định.

  • Phiên bản :

    • 2.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
    • 2.1.2 : Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu : 304.47 GiB

  • Ví dụ ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Mô tả cấu hình : Tập dữ liệu âm thanh thô.

  • Phiên bản :

    • 2.1.1 : Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
    • 2.1.2 (mặc định): Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu : 59.37 GiB

  • Ví dụ ( tfds.as_dataframe ):