- 설명 :
MSLR-WEB은 Microsoft Research에서 발표한 두 개의 대규모 Learning-to-Rank 데이터 세트입니다. 첫 번째 데이터 세트("30k"라고 함)에는 30,000개의 쿼리가 포함되어 있고 두 번째 데이터 세트("10k"라고 함)에는 10,000개의 쿼리가 포함되어 있습니다. 각 데이터 세트는 기능 벡터로 표시되는 쿼리-문서 쌍과 해당 관련성 판단 레이블로 구성됩니다.
다음과 같이 데이터 세트의 "10k" 또는 "30k" 버전과 해당 접기를 사용할지 여부를 지정할 수 있습니다.
ds = tfds.load("mslr_web/30k_fold1")
mslr_web
만 지정된 경우 기본적으로 mslr_web/10k_fold1
옵션이 선택됩니다.
# This is the same as `tfds.load("mslr_web/10k_fold1")`
ds = tfds.load("mslr_web")
홈페이지 : https://www.microsoft.com/en-us/research/project/mslr/
소스 코드 :
tfds.ranking.mslr_web.MslrWeb
버전 :
-
1.0.0
: 최초 릴리스. -
1.1.0
: 기능을 하나의 'float_features' 기능으로 묶습니다. -
1.2.0
(기본값): 쿼리 및 문서 식별자를 추가합니다.
-
자동 캐시 ( 문서 ): 아니요
기능 구조 :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 136), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
doc_id | 텐서 | (없음,) | int64 | |
float_features | 텐서 | (없음, 136) | float64 | |
상표 | 텐서 | (없음,) | float64 | |
query_id | 텍스트 | 끈 |
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@article{DBLP:journals/corr/QinL13,
author = {Tao Qin and Tie{-}Yan Liu},
title = {Introducing {LETOR} 4.0 Datasets},
journal = {CoRR},
volume = {abs/1306.2597},
year = {2013},
url = {http://arxiv.org/abs/1306.2597},
timestamp = {Mon, 01 Jul 2013 20:31:25 +0200},
biburl = {http://dblp.uni-trier.de/rec/bib/journals/corr/QinL13},
bibsource = {dblp computer science bibliography, http://dblp.org}
}
mslr_web/10k_fold1(기본 구성)
다운로드 크기 :
1.15 GiB
데이터 세트 크기 :
310.08 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
mslr_web/10k_fold2
다운로드 크기 :
1.15 GiB
데이터 세트 크기 :
310.08 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
mslr_web/10k_fold3
다운로드 크기 :
1.15 GiB
데이터 세트 크기 :
310.08 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
mslr_web/10k_fold4
다운로드 크기 :
1.15 GiB
데이터 세트 크기 :
310.08 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
mslr_web/10k_fold5
다운로드 크기 :
1.15 GiB
데이터 세트 크기 :
310.08 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 2,000 |
'train' | 6,000 |
'vali' | 2,000 |
- 예 ( tfds.as_dataframe ):
mslr_web/30k_fold1
다운로드 크기 :
3.59 GiB
데이터 세트 크기 :
964.09 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 예 ( tfds.as_dataframe ):
mslr_web/30k_fold2
다운로드 크기 :
3.59 GiB
데이터 세트 크기 :
964.09 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,307 |
'train' | 18,918 |
'vali' | 6,306 |
- 예 ( tfds.as_dataframe ):
mslr_web/30k_fold3
다운로드 크기 :
3.59 GiB
데이터 세트 크기 :
964.09 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,306 |
'train' | 18,918 |
'vali' | 6,307 |
- 예 ( tfds.as_dataframe ):
mslr_web/30k_fold4
다운로드 크기 :
3.59 GiB
데이터 세트 크기 :
964.09 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 예 ( tfds.as_dataframe ):
mslr_web/30k_fold5
다운로드 크기 :
3.59 GiB
데이터 세트 크기 :
964.09 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 6,306 |
'train' | 18,919 |
'vali' | 6,306 |
- 예 ( tfds.as_dataframe ):