- คำอธิบาย :
Dolma: คลังข้อมูลแบบเปิดของโทเค็นสามล้านล้านเหรียญสำหรับการวิจัยการฝึกอบรมแบบจำลองภาษา
หน้าแรก : https://github.com/allenai/dolma
ซอร์สโค้ด :
tfds.datasets.dolma.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
Unknown size
แคชอัตโนมัติ ( เอกสาร ): ไม่ทราบ
แยก :
แยก | ตัวอย่าง |
---|
- โครงสร้างคุณสมบัติ :
FeaturesDict({
'added': Text(shape=(), dtype=string),
'created': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'source': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | ประเภทD | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เพิ่ม | ข้อความ | เชือก | ||
สร้าง | ข้อความ | เชือก | ||
รหัส | ข้อความ | เชือก | ||
แหล่งที่มา | ข้อความ | เชือก | ||
ข้อความ | ข้อความ | เชือก |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): หายไป
การอ้างอิง :
@article{dolma,
title = { {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research} },
author = {
Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and
Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and
Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Ian Magnusson and
Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and
Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and
Oyvind Tafjord and Evan Pete Walsh and Hannaneh Hajishirzi and Noah A. Smith and Luke Zettlemoyer and
Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo
},
year = {2024},
journal={arXiv preprint},
}