- opis :
Ten zbiór danych zawiera ~3 mln wiadomości z reddita. Każda wiadomość jest oznaczona metadanymi. Zadanie polega na przewidzeniu identyfikatora wiadomości nadrzędnej w odpowiednim wątku. Każdy rekord zawiera listę wiadomości z jednego wątku. Zduplikowane i uszkodzone rekordy są usuwane ze zbioru danych.
Funkcje to:
- id - identyfikator wiadomości
- tekst - tekst wiadomości
- autor - autor wiadomości
- created_utc - znacznik czasu UTC wiadomości
- link_id - id posta, którego dotyczy komentarz
Cel:
parent_id - id nadrzędnej wiadomości w bieżącym wątku
Strona główna : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kod źródłowy :
tfds.datasets.reddit_disentanglement.Builder
Wersje :
-
2.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zbioru danych :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Pobierz https://github.com/henghuiz/MaskedHierarchicalTransformer, zdekompresuj plik raw_data.zip i uruchom generate_dataset.py ze swoimi poświadczeniami api reddit. Następnie umieść train.csv, val.csv i test.csv z katalogu wyjściowego w folderze podręcznika.Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :
Podział | Przykłady |
---|
- Struktura funkcji :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
wątek | Sekwencja | |||
wątek/autor | Tekst | strunowy | ||
wątek/utworzony_utc | Tekst | strunowy | ||
wątek/identyfikator | Tekst | strunowy | ||
wątek/identyfikator_linku | Tekst | strunowy | ||
wątek/identyfikator_rodzica | Tekst | strunowy | ||
wątek/tekst | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}