- Descriptif :
Le jeu de données NSynth est un jeu de données audio contenant environ 300 000 notes de musique, chacune avec une hauteur, un timbre et une enveloppe uniques. Chaque note est annotée avec trois éléments d'information supplémentaires basés sur une combinaison d'algorithmes d'évaluation humaine et heuristique : Source, Famille et Qualités.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://g.co/magenta/nsynth-dataset
Code source :
tfds.datasets.nsynth.Builder
Versions :
-
2.3.0
: Nouvelle fonctionnalitéloudness_db
en décibels (non normalisé). -
2.3.1
: F0 calculé avec correction de normalisation en CREPE. -
2.3.2
: Utiliser la fonction Audio. -
2.3.3
(par défaut) : F0 calculé avec le correctif dans la normalisation des vagues CREPE ( https://github.com/marl/crepe/issues/49 ).
-
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{pmlr-v70-engel17a,
title = {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
author = {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
booktitle = {Proceedings of the 34th International Conference on Machine Learning},
pages = {1068--1077},
year = {2017},
editor = {Doina Precup and Yee Whye Teh},
volume = {70},
series = {Proceedings of Machine Learning Research},
address = {International Convention Centre, Sydney, Australia},
month = {06--11 Aug},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
url = {http://proceedings.mlr.press/v70/engel17a.html},
}
nsynth/full (configuration par défaut)
Description de la configuration : l'ensemble de données NSynth complet est divisé en ensembles d'apprentissage, valides et de test, sans chevauchement d'instruments entre l'ensemble d'apprentissage et les ensembles valides/de test.
Taille du téléchargement :
73.07 GiB
Taille du jeu de données :
73.09 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 096 |
'train' | 289 205 |
'valid' | 12 678 |
- Structure des fonctionnalités :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
l'audio | l'audio | (64000,) | float32 | |
identifiant | Tenseur | chaîne | ||
instrument | FonctionnalitésDict | |||
instrument/famille | Étiquette de classe | int64 | ||
instrument/étiquette | Étiquette de classe | int64 | ||
instrument/source | Étiquette de classe | int64 | ||
terrain | Étiquette de classe | int64 | ||
qualités | FonctionnalitésDict | |||
qualités/brillant | Tenseur | bourdonner | ||
qualités/sombre | Tenseur | bourdonner | ||
qualités/distorsion | Tenseur | bourdonner | ||
qualités/fast_decay | Tenseur | bourdonner | ||
qualités/long_release | Tenseur | bourdonner | ||
qualités/multiphonique | Tenseur | bourdonner | ||
qualités/env_nonlinéaire | Tenseur | bourdonner | ||
qualités/percussif | Tenseur | bourdonner | ||
qualités/réverbération | Tenseur | bourdonner | ||
qualités/synchronisé au tempo | Tenseur | bourdonner | ||
rapidité | Étiquette de classe | int64 |
- Exemples ( tfds.as_dataframe ):
nsynth/gansynth_subset
Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).
Taille du téléchargement :
73.08 GiB
Taille du jeu de données :
20.73 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 518 |
'train' | 60 788 |
'valid' | 17 469 |
- Structure des fonctionnalités :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
l'audio | l'audio | (64000,) | float32 | |
identifiant | Tenseur | chaîne | ||
instrument | FonctionnalitésDict | |||
instrument/famille | Étiquette de classe | int64 | ||
instrument/étiquette | Étiquette de classe | int64 | ||
instrument/source | Étiquette de classe | int64 | ||
terrain | Étiquette de classe | int64 | ||
qualités | FonctionnalitésDict | |||
qualités/brillant | Tenseur | bourdonner | ||
qualités/sombre | Tenseur | bourdonner | ||
qualités/distorsion | Tenseur | bourdonner | ||
qualités/fast_decay | Tenseur | bourdonner | ||
qualités/long_release | Tenseur | bourdonner | ||
qualités/multiphonique | Tenseur | bourdonner | ||
qualités/env_nonlinéaire | Tenseur | bourdonner | ||
qualités/percussif | Tenseur | bourdonner | ||
qualités/réverbération | Tenseur | bourdonner | ||
qualités/synchronisé au tempo | Tenseur | bourdonner | ||
rapidité | Étiquette de classe | int64 |
- Exemples ( tfds.as_dataframe ):
nsynth/gansynth_subset.f0_and_loudness
Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Cette version contient en outre des estimations pour F0 à l'aide de CREPE (Kim et al., 2018) et de l'intensité sonore perceptuelle pondérée A en décibels. Les deux signaux sont fournis à une fréquence d'images de 250 Hz.
Taille du téléchargement :
73.08 GiB
Taille du jeu de données :
22.03 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 8 518 |
'train' | 60 788 |
'valid' | 17 469 |
- Structure des fonctionnalités :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'f0': FeaturesDict({
'confidence': Tensor(shape=(1000,), dtype=float32),
'hz': Tensor(shape=(1000,), dtype=float32),
'midi': Tensor(shape=(1000,), dtype=float32),
}),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'loudness': FeaturesDict({
'db': Tensor(shape=(1000,), dtype=float32),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
l'audio | l'audio | (64000,) | float32 | |
f0 | FonctionnalitésDict | |||
f0/confiance | Tenseur | (1000,) | float32 | |
f0/Hz | Tenseur | (1000,) | float32 | |
f0/midi | Tenseur | (1000,) | float32 | |
identifiant | Tenseur | chaîne | ||
instrument | FonctionnalitésDict | |||
instrument/famille | Étiquette de classe | int64 | ||
instrument/étiquette | Étiquette de classe | int64 | ||
instrument/source | Étiquette de classe | int64 | ||
intensité | FonctionnalitésDict | |||
volume/db | Tenseur | (1000,) | float32 | |
terrain | Étiquette de classe | int64 | ||
qualités | FonctionnalitésDict | |||
qualités/brillant | Tenseur | bourdonner | ||
qualités/sombre | Tenseur | bourdonner | ||
qualités/distorsion | Tenseur | bourdonner | ||
qualités/fast_decay | Tenseur | bourdonner | ||
qualités/long_release | Tenseur | bourdonner | ||
qualités/multiphonique | Tenseur | bourdonner | ||
qualités/env_nonlinéaire | Tenseur | bourdonner | ||
qualités/percussif | Tenseur | bourdonner | ||
qualités/réverbération | Tenseur | bourdonner | ||
qualités/synchronisé au tempo | Tenseur | bourdonner | ||
rapidité | Étiquette de classe | int64 |
- Exemples ( tfds.as_dataframe ):