재치

설명 :

Wikipedia 기반 이미지 텍스트(WIT) 데이터 세트는 대규모 다중 모달 다국어 데이터 세트입니다. WIT는 108개의 Wikipedia 언어에 걸쳐 1,150만 개의 고유한 이미지가 포함된 3,760만 개의 엔터티 리치 이미지-텍스트 예제의 큐레이팅된 세트로 구성됩니다. 그 크기 덕분에 WIT는 다중 모달 기계 학습 모델을 위한 사전 교육 데이터 세트로 사용할 수 있습니다.

추가 문서 : 코드가 있는 논문에서 탐색
홈페이지 : https://github.com/google-research-datasets/wit/
소스 코드 : tfds.vision_language.wit.Wit
버전 :
- 1.0.0 : 최초 릴리스. https://storage.googleapis.com/gresearch/wit/ 에서 WIT 데이터세트를 로드합니다.
- 1.1.0 (기본값): val 및 test 분할이 추가되었습니다.
다운로드 크기 : 25.20 GiB
데이터세트 크기 : 81.17 GiB
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'test'`	210,166
`'train'`	37,046,386
`'val'`	261,024

기능 구조 :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입
	풍모Dict
attribution_passes_lang_id	텐서	부울
caption_alt_text_description	텍스트	끈
caption_attribution_description	텍스트	끈
caption_reference_description	텍스트	끈
context_page_description	텍스트	끈
context_section_description	텍스트	끈
hierarchical_section_title	텍스트	끈
이미지 URL	텍스트	끈
is_main_image	텐서	부울
언어	텍스트	끈
mime_type	텍스트	끈
original_height	텐서	int32
original_width	텐서	int32
page_changed_recently	텐서	부울
page_title	텍스트	끈
page_url	텍스트	끈
section_title	텍스트	끈

감독된 키 ( as_supervised 문서 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}