- الوصف :
NSynth Dataset عبارة عن مجموعة بيانات صوتية تحتوي على حوالي 300 ألف نوتة موسيقية ، ولكل منها نغمة فريدة وجرس ومغلف. يتم شرح كل ملاحظة بثلاث أجزاء إضافية من المعلومات بناءً على مجموعة من التقييم البشري والخوارزميات التجريبية: المصدر والعائلة والصفات.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://g.co/magenta/nsynth-dataset
كود المصدر :
tfds.datasets.nsynth.Builder
إصدارات :
-
2.3.0
: ميزةloudness_db
الجديدة بالديسيبل (غير طبيعية). -
2.3.1
: F0 محسوبة بإصلاح التطبيع في CREPE. -
2.3.2
: استخدام ميزة الصوت. -
2.3.3
(افتراضي): F0 محسوبة مع الإصلاح في تطبيع موجة CREPE ( https://github.com/marl/crepe/issues/49 ).
-
التخزين المؤقت التلقائي ( التوثيق ): لا
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@InProceedings{pmlr-v70-engel17a,
title = {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
author = {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
booktitle = {Proceedings of the 34th International Conference on Machine Learning},
pages = {1068--1077},
year = {2017},
editor = {Doina Precup and Yee Whye Teh},
volume = {70},
series = {Proceedings of Machine Learning Research},
address = {International Convention Centre, Sydney, Australia},
month = {06--11 Aug},
publisher = {PMLR},
pdf = {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
url = {http://proceedings.mlr.press/v70/engel17a.html},
}
nsynth / كامل (التكوين الافتراضي)
وصف التكوين : يتم تقسيم مجموعة بيانات NSynth الكاملة إلى مجموعات قطار وصالحة واختبار ، مع عدم وجود أدوات متداخلة بين مجموعة القطار والمجموعات الصالحة / الاختبار.
حجم التحميل :
73.07 GiB
حجم مجموعة البيانات :
73.09 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 4096 |
'train' | 289205 |
'valid' | 12678 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (64000 ،) | تعويم 32 | |
بطاقة تعريف | موتر | خيط | ||
أداة | الميزات | |||
أداة / عائلة | ClassLabel | int64 | ||
الصك / التسمية | ClassLabel | int64 | ||
أداة / مصدر | ClassLabel | int64 | ||
يقذف | ClassLabel | int64 | ||
الصفات | الميزات | |||
صفات / مشرق | موتر | منطقي | ||
الصفات / الظلام | موتر | منطقي | ||
الصفات / التشويه | موتر | منطقي | ||
الصفات / التفكك السريع | موتر | منطقي | ||
الصفات / long_release | موتر | منطقي | ||
الصفات / متعدد الألحان | موتر | منطقي | ||
الصفات / nonlinear_env | موتر | منطقي | ||
صفات / قرع | موتر | منطقي | ||
الصفات / تردد | موتر | منطقي | ||
الصفات / وتيرة متزامنة | موتر | منطقي | ||
سرعة | ClassLabel | int64 |
- أمثلة ( tfds.as_dataframe ):
nsynth / gansynth_subset
وصف التكوين : مجموعة بيانات NSynth تقتصر على الأدوات الصوتية في فاصل خطوة MIDI [24 ، 84]. يستخدم تقسيمات بديلة تتداخل في الأدوات (ولكن ليس الملاحظات الدقيقة) بين مجموعة القطار ومجموعات صالحة / اختبار. تم تقديم هذا المتغير في الأصل في ورقة GANSynth الخاصة بـ ICLR 2019 ( https://arxiv.org/abs/1902.08710 ).
حجم التحميل :
73.08 GiB
حجم مجموعة البيانات :
20.73 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 8518 |
'train' | 60788 |
'valid' | 17469 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (64000 ،) | تعويم 32 | |
بطاقة تعريف | موتر | خيط | ||
أداة | الميزات | |||
أداة / عائلة | ClassLabel | int64 | ||
الصك / التسمية | ClassLabel | int64 | ||
أداة / مصدر | ClassLabel | int64 | ||
يقذف | ClassLabel | int64 | ||
الصفات | الميزات | |||
صفات / مشرق | موتر | منطقي | ||
الصفات / الظلام | موتر | منطقي | ||
الصفات / التشويه | موتر | منطقي | ||
الصفات / التفكك السريع | موتر | منطقي | ||
الصفات / long_release | موتر | منطقي | ||
الصفات / متعدد الألحان | موتر | منطقي | ||
الصفات / nonlinear_env | موتر | منطقي | ||
صفات / قرع | موتر | منطقي | ||
الصفات / تردد | موتر | منطقي | ||
الصفات / وتيرة متزامنة | موتر | منطقي | ||
سرعة | ClassLabel | int64 |
- أمثلة ( tfds.as_dataframe ):
nsynth / gansynth_subset.f0_and_loudness
وصف التكوين : مجموعة بيانات NSynth تقتصر على الأدوات الصوتية في فاصل خطوة MIDI [24 ، 84]. يستخدم تقسيمات بديلة تتداخل في الأدوات (ولكن ليس الملاحظات الدقيقة) بين مجموعة القطار ومجموعات صالحة / اختبار. تم تقديم هذا المتغير في الأصل في ورقة GANSynth الخاصة بـ ICLR 2019 ( https://arxiv.org/abs/1902.08710 ). يحتوي هذا الإصدار أيضًا على تقديرات لـ F0 باستخدام CREPE (Kim et al.، 2018) والجهارة الحسية المرجحة A بالديسيبل. يتم توفير كلتا الإشارتين بمعدل إطار يبلغ 250 هرتز.
حجم التحميل :
73.08 GiB
حجم مجموعة البيانات :
22.03 GiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 8518 |
'train' | 60788 |
'valid' | 17469 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(64000,), dtype=float32),
'f0': FeaturesDict({
'confidence': Tensor(shape=(1000,), dtype=float32),
'hz': Tensor(shape=(1000,), dtype=float32),
'midi': Tensor(shape=(1000,), dtype=float32),
}),
'id': string,
'instrument': FeaturesDict({
'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
}),
'loudness': FeaturesDict({
'db': Tensor(shape=(1000,), dtype=float32),
}),
'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
'qualities': FeaturesDict({
'bright': bool,
'dark': bool,
'distortion': bool,
'fast_decay': bool,
'long_release': bool,
'multiphonic': bool,
'nonlinear_env': bool,
'percussive': bool,
'reverb': bool,
'tempo-synced': bool,
}),
'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (64000 ،) | تعويم 32 | |
f0 | الميزات | |||
f0 / الثقة | موتر | (1000 ،) | تعويم 32 | |
f0 / هرتز | موتر | (1000 ،) | تعويم 32 | |
f0 / ميدي | موتر | (1000 ،) | تعويم 32 | |
بطاقة تعريف | موتر | خيط | ||
أداة | الميزات | |||
أداة / عائلة | ClassLabel | int64 | ||
الصك / التسمية | ClassLabel | int64 | ||
أداة / مصدر | ClassLabel | int64 | ||
بريق | الميزات | |||
جهارة الصوت / ديسيبل | موتر | (1000 ،) | تعويم 32 | |
يقذف | ClassLabel | int64 | ||
الصفات | الميزات | |||
صفات / مشرق | موتر | منطقي | ||
الصفات / الظلام | موتر | منطقي | ||
الصفات / التشويه | موتر | منطقي | ||
الصفات / التفكك السريع | موتر | منطقي | ||
الصفات / long_release | موتر | منطقي | ||
الصفات / متعدد الألحان | موتر | منطقي | ||
الصفات / nonlinear_env | موتر | منطقي | ||
صفات / قرع | موتر | منطقي | ||
الصفات / تردد | موتر | منطقي | ||
الصفات / وتيرة متزامنة | موتر | منطقي | ||
سرعة | ClassLabel | int64 |
- أمثلة ( tfds.as_dataframe ):