- opis :
DocNLI to zbiór danych na dużą skalę do wnioskowania w języku naturalnym (NLI) na poziomie dokumentu. DocNLI jest przekształcony z szerokiego zakresu problemów NLP i obejmuje wiele gatunków tekstu. Przesłanki zawsze pozostają w szczegółowości dokumentu, podczas gdy hipotezy różnią się długością, od pojedynczych zdań do fragmentów zawierających setki słów. W przeciwieństwie do niektórych istniejących zestawów danych NLI na poziomie zdań, DocNLI ma dość ograniczone artefakty.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/salesforce/DocNLI/
Kod źródłowy :
tfds.text.docnli.DocNLI
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
313.89 MiB
Rozmiar zestawu danych :
3.07 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 267 086 |
'train' | 942314 |
'validation' | 234258 |
- Struktura funkcji :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
hipoteza | Tekst | strunowy | ||
etykieta | Etykieta klasy | int64 | ||
przesłanka | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}