wikihow

opis :

WikiHow to nowy zbiór danych na dużą skalę korzystający z internetowej bazy wiedzy WikiHow ( http://www.wikihow.com/ ).

Istnieją dwie funkcje: - tekst: wikihow odpowiada na teksty. - nagłówek: pogrubione linie jako podsumowanie.

Istnieją dwie oddzielne wersje: - wszystkie: składające się z konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako streszczeń referencyjnych. - wrzesień: składający się z każdego akapitu i jego podsumowania.

Pobierz „wikihowAll.csv” i „wikihowSep.csv” z https://github.com/mahnazkoupaee/WikiHow-Dataset i umieść je w folderze manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Podziały pociągu/walidacji/testu są dostarczane przez autorów. Przetwarzanie wstępne jest stosowane w celu usunięcia krótkich artykułów (długość streszczenia < 0,75 długości artykułu) i usunięcia dodatkowych przecinków.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/mahnazkoupaee/WikiHow-Dataset
Kod źródłowy : tfds.summarization.Wikihow
Wersje :
- 1.2.0 (domyślnie): Brak informacji o wersji.
Rozmiar pliku do pobrania : 5.21 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
Linki do plików można znaleźć na https://github.com/mahnazkoupaee/WikiHow-Dataset Proszę pobrać zarówno wikihowAll.csv, jak i wikihowSep.csv.
Automatyczne buforowanie ( dokumentacja ): Nie
Nadzorowane klucze (Zobacz as_supervised doc ): ('text', 'headline')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (domyślna konfiguracja)

Opis konfiguracji : użyj konkatenacji wszystkich akapitów jako artykułów i pogrubionych linii jako podsumowań materiałów referencyjnych
Rozmiar zbioru danych : 531.56 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	5577
`'train'`	157252
`'validation'`	5599

Struktura funkcji :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
nagłówek	Tekst	strunowy
tekst	Tekst	strunowy
tytuł	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wikihow/wrz

Opis konfiguracji : użyj każdego akapitu i jego podsumowania.
Rozmiar zestawu danych : 1.07 GiB
Podziały :

Rozdzielać	Przykłady
`'test'`	37 800
`'train'`	1 060 732
`'validation'`	37 932

Struktura funkcji :

FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
nagłówek	Tekst	strunowy
Przegląd	Tekst	strunowy
sekcjaEtykieta	Tekst	strunowy
tekst	Tekst	strunowy
tytuł	Tekst	strunowy

Przykłady ( tfds.as_dataframe ):

wikihow Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

wikihow/all (domyślna konfiguracja)

wikihow/wrz

wikihow