ai2_arc_with_ir

  • 설명 :

7,787개의 실제 초등학교 수준의 객관식 과학 질문으로 구성된 새로운 데이터 세트는 고급 질의 응답 연구를 장려하기 위해 모였습니다. 데이터 세트는 챌린지 세트와 쉬운 세트로 분할되며 전자는 검색 기반 알고리즘과 단어 동시 발생 알고리즘 모두에 의해 잘못 답변된 질문만 포함합니다. 또한 작업과 관련된 1,400만 개가 넘는 과학 문장 모음과 이 데이터 세트에 대한 3개의 신경 기준 모델 구현을 포함하고 있습니다. 우리는 ARC를 커뮤니티에 대한 도전 과제로 제시합니다.

원본 데이터 세트와 비교하여 UnifiedQA와 동일한 방식으로 정보 검색을 통해 얻은 컨텍스트 문장을 추가합니다(참조: https://arxiv.org/abs/2005.00700 ).

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변키 클래스 레이블 int64
선택 순서
선택/레이블 클래스 레이블 int64
선택/텍스트 텍스트
ID 텍스트
텍스트
의문 텍스트
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR(기본 구성)

  • 구성 설명 : 2590개의 "어려운" 질문으로 구성된 챌린지 세트(검색 및 동시 발생 방법 모두 올바르게 대답하지 못하는 질문)

  • 데이터 세트 크기 : 3.76 MiB

  • 분할 :

나뉘다
'test' 1,172
'train' 1,119
'validation' 299

ai2_arc_with_ir/ARC-Easy-IR

  • 구성 설명 : ARC 챌린지에 대한 쉬운 5197개의 질문 세트.

  • 데이터 세트 크기 : 7.49 MiB

  • 분할 :

나뉘다
'test' 2,376
'train' 2,251
'validation' 570