- Mô tả :
Bộ dữ liệu NSynth là một bộ dữ liệu âm thanh chứa ~300 nghìn nốt nhạc, mỗi nốt nhạc có một cao độ, âm sắc và đường bao riêng. Mỗi ghi chú được chú thích bằng ba mẩu thông tin bổ sung dựa trên sự kết hợp giữa đánh giá của con người và thuật toán heuristic: Nguồn, Dòng và Chất lượng.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://g.co/magenta/nsynth-dataset
Mã nguồn :
tfds.datasets.nsynth.Builder
Phiên bản :
-
2.3.0
: Tính năngloudness_db
mới tính bằng decibel (không chuẩn hóa). -
2.3.1
: F0 được tính với sửa lỗi chuẩn hóa trong CREPE. -
2.3.2
: Sử dụng tính năng Âm thanh. -
2.3.3
(mặc định): F0 được tính với sửa lỗi trong quá trình chuẩn hóa sóng CREPE ( https://github.com/marl/crepe/issues/49 ).
-
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Các khóa được giám sát (Xem
as_supervised
doc ):None
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{pmlr-v70-engel17a,
title = {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
author = {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
booktitle = {Proceedings of the 34th International Conference on Machine Learning},
pages = {1068--1077},
year = {2017},
editor = {Doina Precup and Yee Whye Teh},
volume = {70},
series = {Proceedings of Machine Learning Research},
address = {International Convention Centre, Sydney, Australia},
month = {06--11 Aug},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
url = {http://proceedings.mlr.press/v70/engel17a.html},
}
nsynth/đầy đủ (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu NSynth đầy đủ được chia thành các bộ đào tạo, hợp lệ và kiểm tra, không có công cụ nào chồng chéo giữa bộ đào tạo và các bộ hợp lệ/kiểm tra.
Kích thước tải xuống :
73.07 GiB
Kích thước tập dữ liệu :
73.09 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 4,096 |
'train' | 289,205 |
'valid' | 12,678 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (64000,) | phao32 | |
nhận dạng | tenxơ | sợi dây | ||
dụng cụ | Tính năngDict | |||
nhạc cụ/gia đình | LớpNhãn | int64 | ||
dụng cụ/nhãn | LớpNhãn | int64 | ||
nhạc cụ/nguồn | LớpNhãn | int64 | ||
sân bóng đá | LớpNhãn | int64 | ||
phẩm chất | Tính năngDict | |||
phẩm chất / tươi sáng | tenxơ | bool | ||
phẩm chất / bóng tối | tenxơ | bool | ||
phẩm chất / biến dạng | tenxơ | bool | ||
phẩm chất/fast_decay | tenxơ | bool | ||
phẩm chất/long_release | tenxơ | bool | ||
phẩm chất/đa âm | tenxơ | bool | ||
phẩm chất/phi tuyến_env | tenxơ | bool | ||
phẩm chất / bộ gõ | tenxơ | bool | ||
phẩm chất / hồi âm | tenxơ | bool | ||
chất lượng/đồng bộ hóa nhịp độ | tenxơ | bool | ||
vận tốc | LớpNhãn | int64 |
- Ví dụ ( tfds.as_dataframe ):
nsynth/gansynth_subset
Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách xen kẽ có chồng chéo trong các nhạc cụ (nhưng không phải nốt chính xác) giữa tập luyện và tập hợp lệ/kiểm tra. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).
Kích thước tải xuống :
73.08 GiB
Kích thước tập dữ liệu :
20.73 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8,518 |
'train' | 60,788 |
'valid' | 17,469 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (64000,) | phao32 | |
nhận dạng | tenxơ | sợi dây | ||
dụng cụ | Tính năngDict | |||
nhạc cụ/gia đình | LớpNhãn | int64 | ||
dụng cụ/nhãn | LớpNhãn | int64 | ||
nhạc cụ/nguồn | LớpNhãn | int64 | ||
sân bóng đá | LớpNhãn | int64 | ||
phẩm chất | Tính năngDict | |||
phẩm chất / tươi sáng | tenxơ | bool | ||
phẩm chất / bóng tối | tenxơ | bool | ||
phẩm chất / biến dạng | tenxơ | bool | ||
phẩm chất/fast_decay | tenxơ | bool | ||
phẩm chất/long_release | tenxơ | bool | ||
phẩm chất/đa âm | tenxơ | bool | ||
phẩm chất/phi tuyến_env | tenxơ | bool | ||
phẩm chất / bộ gõ | tenxơ | bool | ||
phẩm chất / hồi âm | tenxơ | bool | ||
chất lượng/đồng bộ hóa nhịp độ | tenxơ | bool | ||
vận tốc | LớpNhãn | int64 |
- Ví dụ ( tfds.as_dataframe ):
nsynth/gansynth_subset.f0_and_loudness
Mô tả cấu hình : Bộ dữ liệu NSynth giới hạn cho các nhạc cụ âm thanh trong khoảng cao độ MIDI [24, 84]. Sử dụng các phần tách xen kẽ có chồng chéo trong các nhạc cụ (nhưng không phải nốt chính xác) giữa tập luyện và tập hợp lệ/kiểm tra. Biến thể này ban đầu được giới thiệu trong bài báo ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Ngoài ra, phiên bản này chứa các ước tính cho F0 bằng cách sử dụng CREPE (Kim và cộng sự, 2018) và độ ồn cảm nhận trọng số A tính bằng decibel. Cả hai tín hiệu đều được cung cấp ở tốc độ khung hình 250Hz.
Kích thước tải xuống :
73.08 GiB
Kích thước tập dữ liệu :
22.03 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 8,518 |
'train' | 60,788 |
'valid' | 17,469 |
- Cấu trúc tính năng :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'f0': FeaturesDict({
'confidence': Tensor(shape=(1000,), dtype=float32),
'hz': Tensor(shape=(1000,), dtype=float32),
'midi': Tensor(shape=(1000,), dtype=float32),
}),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'loudness': FeaturesDict({
'db': Tensor(shape=(1000,), dtype=float32),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
âm thanh | âm thanh | (64000,) | phao32 | |
f0 | Tính năngDict | |||
f0/sự tự tin | tenxơ | (1000,) | phao32 | |
f0/hz | tenxơ | (1000,) | phao32 | |
f0/midi | tenxơ | (1000,) | phao32 | |
nhận dạng | tenxơ | sợi dây | ||
dụng cụ | Tính năngDict | |||
nhạc cụ/gia đình | LớpNhãn | int64 | ||
dụng cụ/nhãn | LớpNhãn | int64 | ||
nhạc cụ/nguồn | LớpNhãn | int64 | ||
độ to | Tính năngDict | |||
độ to/db | tenxơ | (1000,) | phao32 | |
sân bóng đá | LớpNhãn | int64 | ||
phẩm chất | Tính năngDict | |||
phẩm chất / tươi sáng | tenxơ | bool | ||
phẩm chất / bóng tối | tenxơ | bool | ||
phẩm chất / biến dạng | tenxơ | bool | ||
phẩm chất/fast_decay | tenxơ | bool | ||
phẩm chất/long_release | tenxơ | bool | ||
phẩm chất/đa âm | tenxơ | bool | ||
phẩm chất/phi tuyến_env | tenxơ | bool | ||
phẩm chất / bộ gõ | tenxơ | bool | ||
phẩm chất / hồi âm | tenxơ | bool | ||
chất lượng/đồng bộ hóa nhịp độ | tenxơ | bool | ||
vận tốc | LớpNhãn | int64 |
- Ví dụ ( tfds.as_dataframe ):