- opis :
WikiHow to nowy zbiór danych na dużą skalę korzystający z internetowej bazy wiedzy WikiHow ( http://www.wikihow.com/ ).
Istnieją dwie funkcje: - tekst: wikihow odpowiada na teksty. - nagłówek: pogrubione linie jako podsumowanie.
Istnieją dwie oddzielne wersje: - wszystkie: składające się z konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako streszczeń referencyjnych. - wrzesień: składający się z każdego akapitu i jego podsumowania.
Pobierz „wikihowAll.csv” i „wikihowSep.csv” z https://github.com/mahnazkoupaee/WikiHow-Dataset i umieść je w folderze manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Podziały pociągu/walidacji/testu są dostarczane przez autorów. Przetwarzanie wstępne jest stosowane w celu usunięcia krótkich artykułów (długość streszczenia < 0,75 długości artykułu) i usunięcia dodatkowych przecinków.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/mahnazkoupaee/WikiHow-Dataset
Kod źródłowy :
tfds.summarization.Wikihow
Wersje :
-
1.2.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
5.21 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Linki do plików można znaleźć na https://github.com/mahnazkoupaee/WikiHow-Dataset Proszę pobrać zarówno wikihowAll.csv, jak i wikihowSep.csv.Automatyczne buforowanie ( dokumentacja ): Nie
Nadzorowane klucze (Zobacz
as_supervised
doc ):('text', 'headline')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (domyślna konfiguracja)
Opis konfiguracji : użyj konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako podsumowań materiałów referencyjnych
Rozmiar zbioru danych :
531.56 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 5577 |
'train' | 157252 |
'validation' | 5599 |
- Struktura funkcji :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
nagłówek | Tekst | strunowy | ||
tekst | Tekst | strunowy | ||
tytuł | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
wikihow/wrz
Opis konfiguracji : użyj każdego akapitu i jego podsumowania.
Rozmiar zestawu danych :
1.07 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 37 800 |
'train' | 1 060 732 |
'validation' | 37 932 |
- Struktura funkcji :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
nagłówek | Tekst | strunowy | ||
Przegląd | Tekst | strunowy | ||
sekcjaEtykieta | Tekst | strunowy | ||
tekst | Tekst | strunowy | ||
tytuł | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):