- Sự miêu tả :
LibriSpeech là một kho tài liệu gồm khoảng 1000 giờ đọc lời nói tiếng Anh với tốc độ lấy mẫu 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc trong dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.
Bạn nên sử dụng giải mã âm thanh lười để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io
: pip install tensorflow-io
- bật giải mã lười: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : http://www.openslr.org/12
Mã nguồn :
tfds.datasets.librispeech.Builder
Kích thước tải xuống :
57.14 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :
Tách ra | Ví dụ |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2,864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Cấu trúc tính năng :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | loại D | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
chap_id | Tenxơ | int64 | ||
nhận dạng | Tenxơ | sợi dây | ||
loa_id | Tenxơ | int64 | ||
lời nói | Âm thanh | (Không có,) | int16 | |
chữ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('speech', 'text')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/mặc định (cấu hình mặc định)
Mô tả cấu hình : Tập dữ liệu mặc định.
Phiên bản :
-
2.1.1
(mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16. -
2.1.2
: Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu :
304.47 GiB
Ví dụ ( tfds.as_dataframe ):
librispeech/lazy_decode
Mô tả cấu hình : Tập dữ liệu âm thanh thô.
Phiên bản :
-
2.1.1
: Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16. -
2.1.2
(mặc định): Thêm cấu hình 'lazy_decode'.
-
Kích thước tập dữ liệu :
59.37 GiB
Ví dụ ( tfds.as_dataframe ):