- Mô tả :
Một bộ dữ liệu âm thanh miễn phí về các chữ số được nói. Hãy nghĩ đến MNIST cho âm thanh.
Một bộ dữ liệu âm thanh/lời nói đơn giản bao gồm các bản ghi các chữ số được nói trong tệp wav ở 8kHz. Các bản ghi âm được cắt bớt để chúng có khoảng lặng gần như tối thiểu ở phần đầu và phần cuối.
5 loa
2.500 bản ghi (50 của mỗi chữ số cho mỗi loa)
phát âm tiếng anh
Các tệp được đặt tên theo định dạng sau: {digitLabel} { speakerName} {index}.wav
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/Jakobovski/free-spoken-digit-dataset
Mã nguồn :
tfds.datasets.spoken_digit.Builder
Phiên bản :
-
1.0.9
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
11.42 MiB
Kích thước tập dữ liệu :
45.68 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.500 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- Tài liệu tính năng :
Đặc tính | Tầng lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (Không có,) | int64 | |
âm thanh/tên tệp | Chữ | chuỗi | ||
nhãn | LớpNhãn | int64 |
Các khóa được giám sát (Xem
as_supervised
doc ):('audio', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}