- 설명 :
Yahoo Learning to Rank Challenge 데이터 세트("C14"라고도 함)는 Yahoo에서 출시한 Learning-to-Rank 데이터 세트입니다. 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.
데이터 세트에는 두 가지 버전이 포함되어 있습니다.
-
set1
: 709,877개의 쿼리-문서 쌍을 포함합니다. -
set2
: 172,870개의 쿼리-문서 쌍을 포함합니다.
다음과 같이 데이터 세트의 set1
또는 set2
버전을 사용할지 여부를 지정할 수 있습니다.
ds = tfds.load("yahoo_ltrc/set1")
ds = tfds.load("yahoo_ltrc/set2")
yahoo_ltrc
만 지정된 경우 기본적으로 yahoo_ltrc/set1
옵션이 선택됩니다.
# This is the same as `tfds.load("yahoo_ltrc/set1")`
ds = tfds.load("yahoo_ltrc")
버전 :
-
1.0.0
: 최초 릴리스. -
1.1.0
(기본값): 쿼리 및 문서 식별자를 추가합니다.
-
다운로드 크기 :
Unknown size
수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로
download_config.manual_dir
해야 합니다(기본값은~/tensorflow_datasets/downloads/manual/
).
https://research.yahoo.com/datasets 에서 C14 Yahoo Learning To Rank Challenge 데이터세트에 대한 액세스를 요청합니다. 다운로드한dataset.tgz
파일을 추출하고ltrc_yahoo.tar.bz2
파일을manual_dir/
에 넣습니다.감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{chapelle2011yahoo,
title={Yahoo! learning to rank challenge overview},
author={Chapelle, Olivier and Chang, Yi},
booktitle={Proceedings of the learning to rank challenge},
pages={1--24},
year={2011},
organization={PMLR}
}
yahoo_ltrc/set1(기본 구성)
데이터 세트 크기 :
795.39 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,983 |
'train' | 19,944 |
'vali' | 2,994 |
- 기능 구조 :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 699), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
doc_id | 텐서 | (없음,) | int64 | |
float_features | 텐서 | (없음, 699) | float64 | |
상표 | 텐서 | (없음,) | float64 | |
query_id | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):
yahoo_ltrc/set2
데이터 세트 크기 :
194.92 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'test' | 3,798 |
'train' | 1,266 |
'vali' | 1,266 |
- 기능 구조 :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 700), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
doc_id | 텐서 | (없음,) | int64 | |
float_features | 텐서 | (없음, 700) | float64 | |
상표 | 텐서 | (없음,) | float64 | |
query_id | 텍스트 | 끈 |
- 예 ( tfds.as_dataframe ):