yahoo_ltrc

  • คำอธิบาย :

ชุดข้อมูล Yahoo Learning to Rank Challenge (เรียกอีกอย่างว่า "C14") เป็นชุดข้อมูล Learning-to-Rank ที่ออกโดย Yahoo ชุดข้อมูลประกอบด้วยคู่เคียวรี-เอกสารที่แสดงเป็นเวกเตอร์คุณลักษณะและป้ายกำกับการตัดสินความเกี่ยวข้องที่สอดคล้องกัน

ชุดข้อมูลมีสองเวอร์ชัน:

  • set1 : มีคู่เอกสารแบบสอบถาม 709,877 คู่
  • set2 : มีคู่เอกสารแบบสอบถาม 172,870 คู่

คุณสามารถระบุว่าจะใช้ชุดข้อมูลเวอร์ชัน set2 set1 ต่อไปนี้:

ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")

หากระบุเฉพาะ yahoo_ltrc ตัวเลือก yahoo_ltrc/set1 จะถูกเลือกตามค่าเริ่มต้น:

# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
  • หน้าแรก : https://research.yahoo.com/datasets

  • รหัสแหล่งที่มา : tfds.ranking.yahoo_ltrc.YahooLTRC

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.1.0 (ค่าเริ่มต้น): เพิ่มตัวระบุการค้นหาและเอกสาร
  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ขอสิทธิ์เข้าถึงชุดข้อมูล C14 Yahoo Learning To Rank Challenge ที่ https://research.yahoo.com/datasets แยกไฟล์ dataset.tgz ที่ดาวน์โหลดมา และวางไฟล์ ltrc_yahoo.tar.bz2 ใน manual_dir/

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@inproceedings{chapelle2011yahoo,
  title={Yahoo! learning to rank challenge overview},
  author={Chapelle, Olivier and Chang, Yi},
  booktitle={Proceedings of the learning to rank challenge},
  pages={1--24},
  year={2011},
  organization={PMLR}
}

yahoo_ltrc/set1 (การกำหนดค่าเริ่มต้น)

แยก ตัวอย่าง
'test' 6,983
'train' 19,944
'vali' 2,994
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 699), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
doc_id เทนเซอร์ (ไม่มี,) int64
float_features เทนเซอร์ (ไม่มี, 699) float64
ฉลาก เทนเซอร์ (ไม่มี,) float64
แบบสอบถาม_id ข้อความ สตริง

yahoo_ltrc/set2

  • ขนาดชุดข้อมูล : 194.92 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 3,798
'train' 1,266
'vali' 1,266
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'doc_id': Tensor(shape=(None,), dtype=int64),
    'float_features': Tensor(shape=(None, 700), dtype=float64),
    'label': Tensor(shape=(None,), dtype=float64),
    'query_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
doc_id เทนเซอร์ (ไม่มี,) int64
float_features เทนเซอร์ (ไม่มี 700) float64
ฉลาก เทนเซอร์ (ไม่มี,) float64
แบบสอบถาม_id ข้อความ สตริง