복셀렙

설명 :

화자 식별을 위한 대규모 데이터 세트입니다. 이 데이터는 총 150,000개가 넘는 샘플과 함께 1,251명 이상의 화자로부터 수집됩니다. 이 릴리스에는 voxceleb1.1 데이터 세트의 오디오 부분이 포함되어 있습니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
소스 코드 : tfds.audio.Voxceleb
버전 :
- 1.2.1 (기본값): youtube_id 필드 추가
다운로드 크기 : 4.68 MiB
데이터세트 크기 : 107.98 GiB
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
manual_dir에는 vox_dev_wav.zip 파일이 포함되어 있어야 합니다. 이 파일을 다운로드하는 지침은 http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html 에서 찾을 수 있습니다. 이 데이터 세트는 등록이 필요합니다.
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'test'`	7,972
`'train'`	134,000
`'validation'`	6,670

기능 구조 :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	모양	D타입
	풍모Dict
오디오	오디오	(없음,)	int64
상표	클래스 레이블		int64
youtube_id	텍스트		끈

감독 키 ( as_supervised 문서 참조): ('audio', 'label')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}

복셀렙 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

복셀렙