돌마

설명 :

Dolma: 언어 모델 사전 훈련 연구를 위한 3조 개의 토큰으로 구성된 공개 코퍼스

홈페이지 : https://github.com/allenai/dolma
소스 코드 : tfds.datasets.dolma.Builder
버전 :
- 1.0.0 (기본값): 최초 릴리스입니다.
다운로드 크기 : Unknown size
데이터세트 크기 : 9.61 TiB
자동 캐시 ( 문서 ): 아니요
분할 :

나뉘다	예
`'train'`	3,403,336,408

기능 구조 :

FeaturesDict({
    'added': Text(shape=(), dtype=string),
    'created': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'source': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	Dtype
	특징Dict
추가됨	텍스트	끈
생성됨	텍스트	끈
ID	텍스트	끈
원천	텍스트	끈
텍스트	텍스트	끈

감독되는 키 ( as_supervised doc 참조): None
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@article{dolma,
  title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
  author = {
    Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
    Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
    Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
    Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
    Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
    Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
    Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
  year = {2024},
  journal={arXiv preprint},
}

돌마 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

돌마