cfq

  • 설명 :

컴포지션 일반화를 측정하기 위한 CFQ 데이터 세트(및 분할).

배경은 https://arxiv.org/abs/1912.09713.pdf 를 참조하십시오.

검증 세트에 대한 참고 사항: 검증 세트는 테스트 세트와 동일한 분포를 가지고 있고 알 수 없는 테스트 분포와 관련하여 모델 의 구성 일반화를 측정하는 데 관심이 있으므로 모든 조정은 기차의 하위 집합에서 수행되어야 한다고 제안합니다. 설정만 합니다(문서의 섹션 5.1 참조).

사용 예:

data = tfds.load('cfq/mcd1')
FeaturesDict({
    'query': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
질문 텍스트
의문 텍스트
@inproceedings{Keysers2020,
  title={Measuring Compositional Generalization: A Comprehensive Method on
         Realistic Data},
  author={Daniel Keysers and Nathanael Sch"{a}rli and Nathan Scales and
          Hylke Buisman and Daniel Furrer and Sergii Kashubin and
          Nikola Momchev and Danila Sinopalnikov and Lukasz Stafiniak and
          Tibor Tihon and Dmitry Tsarkov and Xiao Wang and Marc van Zee and
          Olivier Bousquet},
  booktitle={ICLR},
  year={2020},
  url={https://arxiv.org/abs/1912.09713.pdf},
}

cfq/mcd1(기본 구성)

  • 데이터 세트 크기 : 49.75 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/mcd2

  • 데이터 세트 크기 : 51.39 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/mcd3

  • 데이터 세트 크기 : 50.22 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/question_complexity_split

  • 데이터 세트 크기 : 52.81 MiB

  • 분할 :

나뉘다
'test' 10,340
'train' 98,999
'validation' 10,339

cfq/question_pattern_split

  • 데이터 세트 크기 : 52.81 MiB

  • 분할 :

나뉘다
'test' 11,909
'train' 95,654
'validation' 12,115

cfq/query_complexity_split

  • 데이터 세트 크기 : 52.81 MiB

  • 분할 :

나뉘다
'test' 9,512
'train' 100,654
'validation' 9,512

cfq/query_pattern_split

  • 데이터 세트 크기 : 52.81 MiB

  • 분할 :

나뉘다
'test' 12,589
'train' 94,600
'validation' 12,489

cfq/random_split

  • 데이터 세트 크기 : 52.81 MiB

  • 분할 :

나뉘다
'test' 11,967
'train' 95,744
'validation' 11,967

cfq/cd0_r1

  • 데이터 세트 크기 : 49.72 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r2

  • 데이터 세트 크기 : 49.45 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r3

  • 데이터 세트 크기 : 49.76 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r4

  • 데이터 세트 크기 : 50.04 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r5

  • 데이터 세트 크기 : 49.36 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r6

  • 데이터 세트 크기 : 49.36 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r7

  • 데이터 세트 크기 : 49.93 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r8

  • 데이터 세트 크기 : 48.58 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0_r9

  • 데이터 세트 크기 : 49.23 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r1

  • 데이터 세트 크기 : 51.54 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r2

  • 데이터 세트 크기 : 48.18 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r3

  • 데이터 세트 크기 : 49.23 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r4

  • 데이터 세트 크기 : 49.76 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r5

  • 데이터 세트 크기 : 49.10 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r6

  • 데이터 세트 크기 : 49.10 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r7

  • 데이터 세트 크기 : 48.02 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r8

  • 데이터 세트 크기 : 48.13 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.1_r9

  • 데이터 세트 크기 : 48.44 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r1

  • 데이터 세트 크기 : 50.90 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r2

  • 데이터 세트 크기 : 49.12 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r3

  • 데이터 세트 크기 : 50.68 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r4

  • 데이터 세트 크기 : 52.61 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r5

  • 데이터 세트 크기 : 50.63 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r6

  • 데이터 세트 크기 : 50.63 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r7

  • 데이터 세트 크기 : 52.39 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r8

  • 데이터 세트 크기 : 50.53 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.2_r9

  • 데이터 세트 크기 : 50.64 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r1

  • 데이터 세트 크기 : 52.08 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r2

  • 데이터 세트 크기 : 52.11 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r3

  • 데이터 세트 크기 : 51.25 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r4

  • 데이터 세트 크기 : 49.94 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r5

  • 데이터 세트 크기 : 49.71 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r6

  • 데이터 세트 크기 : 49.71 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r7

  • 데이터 세트 크기 : 50.86 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r8

  • 데이터 세트 크기 : 49.43 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.3_r9

  • 데이터 세트 크기 : 50.32 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r1

  • 데이터 세트 크기 : 48.52 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r2

  • 데이터 세트 크기 : 47.40 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r3

  • 데이터 세트 크기 : 49.18 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r4

  • 데이터 세트 크기 : 47.86 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r5

  • 데이터 세트 크기 : 49.01 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r6

  • 데이터 세트 크기 : 49.01 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r7

  • 데이터 세트 크기 : 51.70 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r8

  • 데이터 세트 크기 : 50.94 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.4_r9

  • 데이터 세트 크기 : 51.98 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r1

  • 데이터 세트 크기 : 51.00 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r2

  • 데이터 세트 크기 : 49.91 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r3

  • 데이터 세트 크기 : 51.26 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r4

  • 데이터 세트 크기 : 51.27 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r5

  • 데이터 세트 크기 : 51.87 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r6

  • 데이터 세트 크기 : 51.87 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r7

  • 데이터 세트 크기 : 48.52 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r8

  • 데이터 세트 크기 : 48.62 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.5_r9

  • 데이터 세트 크기 : 48.48 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r1

  • 데이터 세트 크기 : 49.32 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r2

  • 데이터 세트 크기 : 49.36 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r3

  • 데이터 세트 크기 : 49.85 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r4

  • 데이터 세트 크기 : 50.07 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r5

  • 데이터 세트 크기 : 49.86 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r6

  • 데이터 세트 크기 : 49.86 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r7

  • 데이터 세트 크기 : 49.42 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r8

  • 데이터 세트 크기 : 48.52 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd0.6_r9

  • 데이터 세트 크기 : 49.54 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r1

  • 데이터 세트 크기 : 49.75 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r2

  • 데이터 세트 크기 : 49.07 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r3

  • 데이터 세트 크기 : 50.22 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r4

  • 데이터 세트 크기 : 49.12 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r5

  • 데이터 세트 크기 : 48.80 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r6

  • 데이터 세트 크기 : 48.80 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r7

  • 데이터 세트 크기 : 50.69 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r8

  • 데이터 세트 크기 : 51.39 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968

cfq/cd1_r9

  • 데이터 세트 크기 : 49.94 MiB

  • 분할 :

나뉘다
'test' 11,968
'train' 95,743
'validation' 11,968