क्रेमा_डी

विवरण :

CREMA-D भावनाओं की पहचान के लिए एक ऑडियो-विजुअल डेटा सेट है। डेटा सेट में बुनियादी भावनात्मक अवस्थाओं (खुश, उदास, क्रोध, भय, घृणा और तटस्थ) की एक श्रृंखला में बोले जाने वाले वाक्यों में चेहरे और मुखर भावनात्मक अभिव्यक्तियाँ होती हैं। विविध जातीय पृष्ठभूमि वाले 91 अभिनेताओं के 7,442 क्लिप एकत्र किए गए थे। इस रिलीज में मूल ऑडियो-विजुअल रिकॉर्डिंग से केवल ऑडियो स्ट्रीम शामिल है। नमूने ट्रेन, सत्यापन और परीक्षण के बीच विभाजित होते हैं ताकि प्रत्येक स्पीकर के नमूने बिल्कुल एक विभाजन से संबंधित हों।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/CheyneyComputerScience/CREMA-D
स्रोत कोड : tfds.audio.CremaD
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
डाउनलोड आकार : 579.25 MiB
डेटासेट का आकार : 1.65 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	1,556
`'train'`	5,144
`'validation'`	738

फ़ीचर संरचना :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'speaker_id': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
ऑडियो	ऑडियो	(कोई भी नहीं,)	int64
लेबल	क्लासलेबल		int64
स्पीकर_आईडी	टेन्सर		डोरी

पर्यवेक्षित कुंजी ( as_supervised दस्तावेज़ देखें): ('audio', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{cao2014crema,
  title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
  author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
  journal={IEEE transactions on affective computing},
  volume={5},
  number={4},
  pages={377--390},
  year={2014},
  publisher={IEEE}
}