- opis :
SuperGLUE ( https://super.gluebenchmark.com/ ) to nowy test porównawczy stylizowany na GLUE z nowym zestawem trudniejszych zadań związanych ze zrozumieniem języka, ulepszonymi zasobami i nową publiczną tabelą wyników.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Kod źródłowy :
tfds.text.SuperGlue
Wersje :
-
1.0.2
(domyślnie): Brak informacji o wersji.
-
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
super_glue/boolq (domyślna konfiguracja)
Opis konfiguracji: BoolQ (Boolean Questions, Clark et al., 2019a) to zadanie QA, w którym każdy przykład składa się z krótkiego fragmentu i pytania tak/nie dotyczącego fragmentu. Pytania są zadawane anonimowo i dobrowolnie przez użytkowników wyszukiwarki Google, a następnie zestawiane z akapitem artykułu w Wikipedii zawierającego odpowiedź. Po oryginalnej pracy oceniamy z dokładnością.
Strona główna : https://github.com/google-research-datasets/boolean-questions
Rozmiar pliku do pobrania :
3.93 MiB
Rozmiar zestawu danych :
10.75 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 3245 |
'train' | 9427 |
'validation' | 3270 |
- Struktura funkcji :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
przejście | Tekst | strunowy | ||
pytanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_klej/cb
Opis konfiguracji: CommitmentBank (De Marneffe i in., 2019) to zbiór krótkich tekstów, w których co najmniej jedno zdanie zawiera osadzoną klauzulę. Każda z tych osadzonych klauzul jest opatrzona adnotacją określającą stopień, w jakim oczekujemy, że osoba, która napisała tekst, jest zobowiązana do prawdziwości klauzuli. Wynikowe zadanie sformułowane jako trzyklasowe implikacje tekstowe na przykładach zaczerpniętych z Wall Street Journal, beletrystyki z British National Corpus i Switchboard. Każdy przykład składa się z przesłanki zawierającej osadzoną klauzulę, a odpowiadająca jej hipoteza jest wyodrębnieniem tej klauzuli. Używamy podzbioru danych, które miały zgodność między adnotatorami powyżej 0,85. Dane są niezrównoważone (stosunkowo mniej neutralnych przykładów), więc oceniamy przy użyciu dokładności i F1, gdzie dla wielu klas F1 obliczamy nieważoną średnią F1 na klasę.
Strona główna : https://github.com/mcdm/CommitmentBank
Rozmiar pliku do pobrania :
73.71 KiB
Rozmiar zbioru danych :
229.28 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- Struktura funkcji :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
hipoteza | Tekst | strunowy | ||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
przesłanka | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/copa
Opis konfiguracji: Zbiór danych The Choice Of Plausible Alternatives (COPA, Roemmele i in., 2011) jest zadaniem rozumowania przyczynowego, w którym system otrzymuje przesłankę i dwie możliwe alternatywy. System musi wybrać alternatywę, która ma bardziej prawdopodobny związek przyczynowy z przesłanką. Metoda zastosowana do konstrukcji alternatyw zapewnia, że rozwiązanie zadania wymaga rozumowania przyczynowego. Przykłady dotyczą albo alternatywnych możliwych przyczyn, albo alternatywnych możliwych skutków zdania przesłanki, któremu towarzyszy proste pytanie ujednoznaczniające między dwoma typami instancji dla modelu. Wszystkie przykłady są wykonane ręcznie i koncentrują się na tematach z blogów internetowych i encyklopedii związanej z fotografią. Zgodnie z zaleceniami autorów oceniamy za pomocą dokładności.
Strona główna : http://people.ict.usc.edu/~gordon/copa.html
Rozmiar pliku do pobrania :
42.96 KiB
Rozmiar zbioru danych :
196.00 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- Struktura funkcji :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
wybór1 | Tekst | strunowy | ||
wybór2 | Tekst | strunowy | ||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
przesłanka | Tekst | strunowy | ||
pytanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/multirc
Opis konfiguracji: Zestaw danych wielozdaniowego czytania ze zrozumieniem (MultiRC, Khashabi i in., 2018) to zadanie polegające na odpowiadaniu na pytania prawda/fałsz. Każdy przykład składa się z akapitu kontekstu, pytania dotyczącego tego akapitu oraz listy możliwych odpowiedzi na to pytanie, które muszą być oznaczone jako prawda lub fałsz. Odpowiadanie na pytania (QA) to popularny problem z wieloma zestawami danych. Używamy MultiRC ze względu na szereg pożądanych właściwości: (i) każde pytanie może mieć wiele możliwych poprawnych odpowiedzi, więc każda para pytanie-odpowiedź musi być oceniana niezależnie od innych par, (ii) pytania są zaprojektowane w taki sposób, że udzielenie odpowiedzi na każde pytanie wymaga wyciąganie faktów z wielu zdań kontekstowych oraz (iii) format par pytanie-odpowiedź bardziej pasuje do API innych zadań SuperGLUE niż ekstrakcyjne QA oparte na rozpiętości. Akapity pochodzą z siedmiu dziedzin, w tym wiadomości, beletrystyki i tekstu historycznego.
Strona główna : https://cogcomp.org/multirc/
Rozmiar pliku do pobrania :
1.06 MiB
Rozmiar zestawu danych :
70.39 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 9693 |
'train' | 27243 |
'validation' | 4848 |
- Struktura funkcji :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiadać | Tekst | strunowy | ||
idx | FunkcjeDict | |||
idx/odpowiedź | Napinacz | int32 | ||
idx/akapit | Napinacz | int32 | ||
idx/pytanie | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
ustęp | Tekst | strunowy | ||
pytanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_klej/nagranie
Opis konfiguracji : (Czytanie ze zrozumieniem z zestawem danych Commonsense Reasoning, Zhang i in., 2018) to zadanie kontroli jakości wielokrotnego wyboru. Każdy przykład składa się z artykułu informacyjnego i pytania w stylu Cloze dotyczącego artykułu, w którym jedna jednostka jest zamaskowana. System musi przewidzieć zamaskowaną jednostkę na podstawie podanej listy możliwych jednostek w podanym fragmencie, gdzie ta sama jednostka może być wyrażona przy użyciu wielu różnych form powierzchni, z których wszystkie są uważane za poprawne. Artykuły pochodzą z CNN i Daily Mail. Zgodnie z oryginalną pracą oceniamy z maksymalnym (ponad wszystkimi wzmiankami) poziomem tokena F1 i dokładnym dopasowaniem (EM).
Strona główna : https://sheng-z.github.io/ReCoRD-explorer/
Rozmiar pliku do pobrania :
49.36 MiB
Rozmiar zestawu danych :
166.40 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 10 000 |
'train' | 100730 |
'validation' | 10 000 |
- Struktura funkcji :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiedzi | Sekwencja (tekst) | (Nic,) | strunowy | |
podmioty | Sekwencja (tekst) | (Nic,) | strunowy | |
idx | FunkcjeDict | |||
idx/przejście | Napinacz | int32 | ||
idx/zapytanie | Napinacz | int32 | ||
przejście | Tekst | strunowy | ||
zapytanie | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/rte
Opis konfiguracji: zestawy danych Recognizing Textual Entailment (RTE) pochodzą z serii corocznych konkursów dotyczących implikacji tekstowych, problemu przewidywania, czy dana przesłanka pociąga za sobą daną hipotezę (znaną również jako wnioskowanie w języku naturalnym, NLI). RTE było wcześniej zawarte w GLUE i używamy tych samych danych i formatu co poprzednio: Łączymy dane z RTE1 (Dagan i in., 2006), RTE2 (Bar Haim i in., 2006), RTE3 (Giampiccolo i in., 2007) i RTE5 (Bentivogli i in., 2009). Wszystkie zestawy danych są łączone i konwertowane na klasyfikację dwuklasową: wynikanie i brak_powiązania. Spośród wszystkich zadań GLUE, RTE było jednym z tych, które najbardziej skorzystały z transferu uczenia się, przeskakując od wydajności bliskiej losowej szansy (~ 56%) w momencie uruchomienia GLUE do 85% dokładności (Liu i in., 2019c) na początku czas pisania. Jednak biorąc pod uwagę ośmiopunktową lukę w odniesieniu do wydajności człowieka, zadanie to nie zostało jeszcze rozwiązane przez maszyny i spodziewamy się, że pozostała luka będzie trudna do wypełnienia.
Strona główna : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Rozmiar pliku do pobrania :
733.32 KiB
Rozmiar zestawu danych :
2.15 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 3000 |
'train' | 2490 |
'validation' | 277 |
- Struktura funkcji :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
hipoteza | Tekst | strunowy | ||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
przesłanka | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wic
Opis konfiguracji: zestaw danych Word-in-Context (WiC, Pilehvar i Camacho-Collados, 2019) obsługuje zadanie ujednoznaczniania sensu słów rzutowane jako klasyfikacja binarna na pary zdań. Biorąc pod uwagę dwa zdania i słowo polisemiczne (niejednoznaczne), które pojawia się w obu zdaniach, zadaniem jest ustalenie, czy słowo jest użyte w tym samym znaczeniu w obu zdaniach. Zdania pochodzą z WordNet (Miller, 1995), VerbNet (Schuler, 2005) i Wikisłownika. Śledzimy oryginalną pracę i oceniamy z dokładnością.
Strona główna : https://pilehvar.github.io/wic/
Rozmiar pliku do pobrania :
386.93 KiB
Rozmiar zestawu danych :
1.67 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1400 |
'train' | 5428 |
'validation' | 638 |
- Struktura funkcji :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
koniec 1 | Napinacz | int32 | ||
koniec2 | Napinacz | int32 | ||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
zdanie 1 | Tekst | strunowy | ||
zdanie2 | Tekst | strunowy | ||
początek1 | Napinacz | int32 | ||
start2 | Napinacz | int32 | ||
słowo | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- Opis konfiguracji : The Winograd Schema Challenge (WSC, Levesque et al., 2012) to zadanie na czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybrać desygnat tego zaimka z listy do wyboru. Biorąc pod uwagę trudność tego zadania i pozostały zapas, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych w formę odniesienia. Zadanie jest przedstawiane jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyizolowania zdolności modelu do zrozumienia powiązań korelacyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą wejść w grę w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większościową w zbiorze walidacyjnym, odzwierciedlającą rozkład ukrytego zestawu testowego i 52% negatywną klasą w zbiorze uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zestawu danych Winograd Schema (Levesque i in., 2012), a także z tych, które są dystrybuowane przez stowarzyszoną organizację Commonsense Reasoning. Przykłady testów pochodzą z książek beletrystycznych i zostały nam udostępnione przez autorów oryginalnego zestawu danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klas większościowych. WNLI było szczególnie trudne ze względu na przeciwstawny podział pociąg/programista: zdania przesłanek, które pojawiały się w zbiorze treningowym, czasami pojawiały się w zbiorze rozwojowym z inną hipotezą i odwróconą etykietą. Jeśli system zapamiętał zestaw treningowy bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zestawu treningowego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten przeciwstawny projekt w wersji SuperGLUE WSC, upewniając się, że żadne zdania nie są dzielone między zestawami uczącymi, walidującymi i testowymi.
Jednak zestawy walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zestaw walidacyjny składa się z niejednoznacznych przykładów, takich jak zmiana jednego wyrażenia niebędącego rzeczownikiem, zmieni zależności koreferencyjne w zdaniu. Zestaw testów składa się tylko z prostszych przykładów, z dużą liczbą wyrażeń rzeczownikowych (a tym samym z większym wyborem dla modelu), ale z niewielką lub zerową niejednoznacznością.
Strona główna : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Rozmiar pliku do pobrania :
31.98 KiB
Rozmiar zbioru danych :
219.70 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Struktura funkcji :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
zakres1_indeks | Napinacz | int32 | ||
zakres1_tekst | Tekst | strunowy | ||
span2_index | Napinacz | int32 | ||
rozpiętość2_tekst | Tekst | strunowy | ||
tekst | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- Opis konfiguracji : The Winograd Schema Challenge (WSC, Levesque et al., 2012) to zadanie na czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybrać desygnat tego zaimka z listy do wyboru. Biorąc pod uwagę trudność tego zadania i pozostały zapas, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych w formę odniesienia. Zadanie jest przedstawiane jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyizolowania zdolności modelu do zrozumienia powiązań korelacyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą wejść w grę w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większościową w zbiorze walidacyjnym, odzwierciedlającą rozkład ukrytego zestawu testowego i 52% negatywną klasą w zbiorze uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zestawu danych Winograd Schema (Levesque i in., 2012), a także z tych, które są dystrybuowane przez stowarzyszoną organizację Commonsense Reasoning. Przykłady testów pochodzą z książek beletrystycznych i zostały nam udostępnione przez autorów oryginalnego zbioru danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klas większościowych. WNLI było szczególnie trudne ze względu na przeciwstawny podział pociąg/programista: zdania przesłanek, które pojawiały się w zbiorze treningowym, czasami pojawiały się w zbiorze rozwojowym z inną hipotezą i odwróconą etykietą. Jeśli system zapamiętał zestaw treningowy bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zestawu treningowego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten przeciwstawny projekt w wersji SuperGLUE WSC, upewniając się, że żadne zdania nie są dzielone między zestawami uczącymi, walidującymi i testowymi.
Jednak zestawy walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zestaw walidacyjny składa się z niejednoznacznych przykładów, takich jak zmiana jednego wyrażenia niebędącego rzeczownikiem, zmieni zależności koreferencyjne w zdaniu. Zestaw testów składa się tylko z prostszych przykładów, z dużą liczbą wyrażeń rzeczownikowych (a tym samym z większym wyborem dla modelu), ale z niewielką lub zerową niejednoznacznością.
Ta wersja rozwiązuje problemy, w których rozpiętości nie są w rzeczywistości podciągami tekstu.
Strona główna : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Rozmiar pliku do pobrania :
31.98 KiB
Rozmiar zbioru danych :
219.70 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Struktura funkcji :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
zakres1_indeks | Napinacz | int32 | ||
zakres1_tekst | Tekst | strunowy | ||
span2_index | Napinacz | int32 | ||
rozpiętość2_tekst | Tekst | strunowy | ||
tekst | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_klej/axb
Opis konfiguracji : opracowany przez ekspertów zestaw danych diagnostycznych, który automatycznie testuje modele pod kątem szerokiego zakresu wiedzy językowej, zdroworozsądkowej i ogólnoświatowej. Każdy przykład w tej szeroko zakrojonej diagnostyce to para zdań oznaczona trójstronną relacją implikacji (powiązanie, neutralność lub sprzeczność) i oznaczona etykietami wskazującymi zjawiska charakteryzujące relację między tymi dwoma zdaniami. Zgłoszenia do tabeli liderów GLUE muszą zawierać prognozy z klasyfikatora MultiNLI zgłoszenia w zbiorze danych diagnostycznych, a analizy wyników zostały pokazane obok głównej tabeli liderów. Ponieważ to szeroko zakrojone zadanie diagnostyczne okazało się trudne dla najlepszych modeli, zachowujemy je w SuperGLUE. Ponieważ jednak MultiNLI nie jest częścią SuperGLUE, zwijamy sprzeczność i neutralność w jedną etykietę not_entailment i prosimy, aby zgłoszenia zawierały prognozy dotyczące zestawu wynikowego z modelu używanego do zadania RTE.
Strona główna : https://gluebenchmark.com/diagnostics
Rozmiar pliku do pobrania :
33.15 KiB
Rozmiar zbioru danych :
290.53 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1104 |
- Struktura funkcji :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
zdanie 1 | Tekst | strunowy | ||
zdanie2 | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
Opis konfiguracji: Winogender jest przeznaczony do pomiaru odchyleń płci w systemach rozwiązywania korelacji. Używamy wersji Diverse Natural Language Inference Collection (DNC; Poliak i in., 2018), która przedstawia Winogendera jako zadanie wynikające z tekstu. Każdy przykład składa się ze zdania przesłanki z zaimkiem męskim lub żeńskim oraz hipotezy podającej możliwy poprzednik zaimka. Przykłady występują w parach minimalnych, gdzie jedyną różnicą między przykładem a jego parą jest rodzaj zaimka w przesłance. Wydajność w Winogender jest mierzona zarówno dokładnością, jak i wynikiem parytetu płci: procentem minimalnych par, dla których prognozy są takie same. Zauważmy, że system może w prosty sposób uzyskać doskonały wynik parytetu płci, odgadując tę samą klasę dla wszystkich przykładów, więc wysoki wynik parytetu płci jest bez znaczenia, jeśli nie towarzyszy mu wysoka dokładność. Jako test diagnostyczny uprzedzeń ze względu na płeć, uważamy, że schematy mają wysoką pozytywną wartość predykcyjną i niską negatywną wartość predykcyjną; to znaczy mogą wykazać obecność uprzedzeń ze względu na płeć w systemie, ale nie mogą udowodnić ich braku.
Strona główna : https://github.com/rudinger/winogender-schemas
Rozmiar pliku do pobrania :
10.17 KiB
Rozmiar zbioru danych :
69.75 KiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 356 |
- Struktura funkcji :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
hipoteza | Tekst | strunowy | ||
idx | Napinacz | int32 | ||
etykieta | Etykieta klasy | int64 | ||
przesłanka | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.