- opis :
Zbiory danych Istella to trzy wielkoskalowe zestawy danych Learning-to-Rank wydane przez Istella. Każdy zestaw danych składa się z par zapytanie-dokument reprezentowanych jako wektory cech i odpowiadające im etykiety oceny istotności.
Zestaw danych zawiera trzy wersje:
-
main
(„Istella LETOR”): Zawiera 10 454 629 par zapytanie-dokument. -
s
(„Istella-S LETOR”): Zawiera 3 408 630 par zapytanie-dokument. -
x
(„Istella-X LETOR”): Zawiera 26 791 447 par zapytanie-dokument.
Możesz określić, czy chcesz użyć wersji main
, s
czy x
zestawu danych w następujący sposób:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Jeśli określono tylko istella
, domyślnie wybrana jest opcja istella/main
:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Strona główna : http://quickrank.isti.cnr.it/istella-dataset/
Kod źródłowy :
tfds.ranking.istella.Istella
Wersje :
-
1.0.0
: Pierwsza wersja. -
1.0.1
: Napraw serializację, aby obsługiwać float64. -
1.1.0
: Połącz funkcje w jedną funkcję „float_features”. -
1.2.0
(domyślnie): Dodaj identyfikatory zapytań i dokumentów.
-
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_dokumentu | Napinacz | (Nic,) | int64 | |
float_features | Napinacz | (Brak, 220) | pływak64 | |
etykieta | Napinacz | (Nic,) | pływak64 | |
identyfikator_zapytania | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (domyślna konfiguracja)
Rozmiar pliku do pobrania :
1.20 GiB
Rozmiar zestawu danych :
1.12 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 9799 |
'train' | 23219 |
- Przykłady ( tfds.as_dataframe ):
istella/s
Rozmiar pliku do pobrania :
450.26 MiB
Rozmiar zestawu danych :
421.88 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 6562 |
'train' | 19245 |
'vali' | 7211 |
- Przykłady ( tfds.as_dataframe ):
istella/x
Rozmiar pliku do pobrania :
4.42 GiB
Rozmiar zestawu danych :
2.46 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- Przykłady ( tfds.as_dataframe ):
- opis :
Zbiory danych Istella to trzy wielkoskalowe zestawy danych Learning-to-Rank wydane przez Istella. Każdy zestaw danych składa się z par zapytanie-dokument reprezentowanych jako wektory cech i odpowiadające im etykiety oceny istotności.
Zestaw danych zawiera trzy wersje:
-
main
(„Istella LETOR”): Zawiera 10 454 629 par zapytanie-dokument. -
s
(„Istella-S LETOR”): Zawiera 3 408 630 par zapytanie-dokument. -
x
(„Istella-X LETOR”): Zawiera 26 791 447 par zapytanie-dokument.
Możesz określić, czy chcesz użyć wersji main
, s
czy x
zestawu danych w następujący sposób:
ds = tfds.load("istella/main")
ds = tfds.load("istella/s")
ds = tfds.load("istella/x")
Jeśli określono tylko istella
, domyślnie wybrana jest opcja istella/main
:
# This is the same as `tfds.load("istella/main")`
ds = tfds.load("istella")
Strona główna : http://quickrank.isti.cnr.it/istella-dataset/
Kod źródłowy :
tfds.ranking.istella.Istella
Wersje :
-
1.0.0
: Pierwsza wersja. -
1.0.1
: Napraw serializację, aby obsługiwać float64. -
1.1.0
: Połącz funkcje w jedną funkcję „float_features”. -
1.2.0
(domyślnie): Dodaj identyfikatory zapytań i dokumentów.
-
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'doc_id': Tensor(shape=(None,), dtype=int64),
'float_features': Tensor(shape=(None, 220), dtype=float64),
'label': Tensor(shape=(None,), dtype=float64),
'query_id': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_dokumentu | Napinacz | (Nic,) | int64 | |
float_features | Napinacz | (Brak, 220) | pływak64 | |
etykieta | Napinacz | (Nic,) | pływak64 | |
identyfikator_zapytania | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{10.1145/2987380,
author = {Dato, Domenico and Lucchese, Claudio and Nardini, Franco Maria and Orlando, Salvatore and Perego, Raffaele and Tonellotto, Nicola and Venturini, Rossano},
title = {Fast Ranking with Additive Ensembles of Oblivious and Non-Oblivious Regression Trees},
year = {2016},
publisher = {ACM},
address = {New York, NY, USA},
volume = {35},
number = {2},
issn = {1046-8188},
url = {https://doi.org/10.1145/2987380},
doi = {10.1145/2987380},
journal = {ACM Transactions on Information Systems},
articleno = {15},
numpages = {31},
}
istella/main (domyślna konfiguracja)
Rozmiar pliku do pobrania :
1.20 GiB
Rozmiar zestawu danych :
1.12 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 9799 |
'train' | 23219 |
- Przykłady ( tfds.as_dataframe ):
istella/s
Rozmiar pliku do pobrania :
450.26 MiB
Rozmiar zestawu danych :
421.88 MiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 6562 |
'train' | 19245 |
'vali' | 7211 |
- Przykłady ( tfds.as_dataframe ):
istella/x
Rozmiar pliku do pobrania :
4.42 GiB
Rozmiar zestawu danych :
2.46 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2000 |
'train' | 6000 |
'vali' | 2000 |
- Przykłady ( tfds.as_dataframe ):