ref_코코

  • 설명 :

COCO 데이터세트의 이미지를 기반으로 한 3개의 참조 표현 데이터세트 모음입니다. 참조 표현은 이미지의 고유한 개체를 설명하는 텍스트 조각입니다. 이러한 데이터 세트는 인간 평가자에게 COCO 데이터 세트의 경계 상자로 묘사된 개체를 명확하게 하도록 요청하여 수집됩니다.

RefCoco 및 RefCoco+는 Kazemzadeh et al. 2014. RefCoco+ 표현은 엄격하게 모양 기반 설명이며, 평가자가 위치 기반 설명을 사용하지 못하도록 방지하여 시행됩니다(예: "오른쪽에 있는 사람"은 RefCoco+에 대한 유효한 설명이 아닙니다). RefCocoG는 Mao et al. 2016이며 주석 처리의 차이로 인해 RefCoco에 비해 객체에 대한 설명이 더 풍부합니다. 특히 RefCoco는 인터랙티브 게임 기반 환경에서 수집된 반면, RefCocoG는 비인터랙티브 환경에서 수집되었습니다. 평균적으로 RefCocoG의 표현당 단어 수는 8.4개이고 RefCoco의 표현당 단어 수는 3.5개입니다.

각 데이터 세트에는 일반적으로 모두 논문에 보고되는 서로 다른 분할 할당이 있습니다. RefCoco 및 RefCoco+의 "testA" 및 "testB" 세트에는 각각 사람만 포함되고 사람이 아닌 세트만 포함됩니다. 이미지는 다양한 분할로 분할됩니다. "google" 분할에서는 이미지가 아닌 객체가 열차 분할과 비열차 분할 간에 분할됩니다. 이는 학습 분할과 검증 분할 모두에 동일한 이미지가 나타날 수 있지만 이미지에서 참조되는 객체는 두 세트 간에 서로 다르다는 것을 의미합니다. 대조적으로, "unc" 및 "umd"는 학습, 검증 및 테스트 분할 간에 파티션 이미지를 분할합니다. RefCocoG에서 "google" 분할에는 표준 테스트 세트가 없으며 검증 세트는 일반적으로 논문에서 "val*"로 보고됩니다.

각 데이터세트 및 분할에 대한 통계("refs"는 참조 표현식 수이고 "images"는 이미지 수):

데이터 세트 분할 나뉘다 심판 이미지
레코코 Google 기차 40000 19213
레코코 Google 5000 4559
레코코 Google 시험 5000 4527
레코코 unc 기차 42404 16994
레코코 unc 3811 1500
레코코 unc 종피 1975년 750
레코코 unc 테스트B 1810년 750
레프코코+ unc 기차 42278 16992
레프코코+ unc 3805 1500
레프코코+ unc 종피 1975년 750
레프코코+ unc 테스트B 1798년 750
레코코그 Google 기차 44822 24698
레코코그 Google 5000 4650
레코코그 기차 42226 21899
레코코그 2573 1300
레코코그 시험 5023 2600
  1. https://github.com/cocodataset/cocoapi 의 PythonAPI 지침에 따라 https://cocodataset.org/#download 에서 pycocotools 및 인스턴스_train2014 주석 파일을 가져옵니다.

  2. (1)의 Refer.py와 (2)의 pycocotools를 모두 PYTHONPATH에 추가합니다.

  3. manual_download_process.py를 실행하여 refcoco.json을 생성하고 ref_data_root , coco_annotations_fileout_file 해당 파일을 다운로드했거나 저장하려는 위치에 해당하는 값으로 바꿉니다. manual_download_process.py는 TFDS 저장소에서 찾을 수 있습니다.

  4. https://cocodataset.org/#download 에서 COCO 훈련 세트를 다운로드하여 coco_train2014/ 라는 폴더에 저장하세요. refcoco.json coco_train2014 와 동일한 수준으로 이동합니다.

  5. 표준 수동 다운로드 지침을 따르십시오.

  • 자동 캐시 ( 문서 ): 아니요

  • 기능 구조 :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
coco_annotations 순서
coco_annotations/area 텐서 정수64
coco_annotations/bbox B박스특징 (4,) float32
coco_annotations/id 텐서 정수64
coco_annotations/레이블 텐서 정수64
영상 영상 (없음, 없음, 3) uint8
이미지/ID 텐서 정수64
사물 순서
객체/영역 텐서 정수64
객체/bbox B박스특징 (4,) float32
객체/gt_box_index 텐서 정수64
객체/ID 텐서 정수64
객체/라벨 텐서 정수64
객체/마스크 영상 (없음, 없음, 3) uint8
객체/참조 표현식 순서
객체/refexp/raw 텍스트
객체/refexp/refexp_id 텐서 정수64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (기본 구성)

  • 데이터세트 크기 : 3.29 GiB

  • 분할 :

나뉘다
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

심상

ref_coco/refcoco_google

  • 데이터세트 크기 : 4.65 GiB

  • 분할 :

나뉘다
'test' 4,527
'train' 19,213
'validation' 4,559

심상

ref_coco/refcocoplus_unc

  • 데이터세트 크기 : 3.29 GiB

  • 분할 :

나뉘다
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

심상

ref_coco/refcocog_google

  • 데이터세트 크기 : 4.64 GiB

  • 분할 :

나뉘다
'train' 24,698
'validation' 4,650

심상

ref_coco/refcocog_umd

  • 데이터세트 크기 : 4.08 GiB

  • 분할 :

나뉘다
'test' 2,600
'train' 21,899
'validation' 1,300

심상