- opis :
Wikipedia - Konkurs na dopasowanie obrazu/podpisu Kaggle.
Konkurs ten jest organizowany przez zespół badawczy Fundacji Wikimedia we współpracy z Google Research i kilkoma zewnętrznymi współpracownikami. Ten konkurs opiera się na zbiorze danych WIT opublikowanym przez Google Research, jak opisano szczegółowo w tym dokumencie SIGIR .
W tym konkursie zbudujesz model, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności wytrenujesz swój model, aby kojarzył dane obrazy z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii. Jeśli się powiedzie, przyczynisz się do zwiększenia dostępności największej encyklopedii online. Miliony czytelników i redaktorów Wikipedii będą mogły łatwiej zrozumieć, przeszukiwać i opisywać media na dużą skalę. W rezultacie przyczynisz się do otwartego modelu, aby poprawić uczenie się dla wszystkich.
Strona główna : https://www.kaggle.com/c/wikipedia-image-caption/code
Kod źródłowy :
tfds.vision_language.wit_kaggle.WitKaggle
Wersje :
1.0.0
: Pierwsza wersja. Zapewnia pociągi i testy zestawów danych z konkursu Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).Celem konkursu jest zbudowanie modelu, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności model powinien zostać przeszkolony w kojarzeniu danych obrazów z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii.
Należy zauważyć, że to wydanie nie zapewnia podstawowej prawdy dla zestawu testowego, ponieważ nie została jeszcze dostarczona przez konkurencję Kaggle.
Należy zauważyć, że nie wszystkie obserwacje treningowe mają odpowiednie dane obrazowe. Opublikowane obrazy wykluczają wszystkie obrazy przedstawiające ludzi. W przypadku próbek, które nie są powiązane z danymi obrazu, stosowane są następujące cechy obrazu:
image
jest pustym obrazem zakodowanym w bajcie 64,embedding
jest wektorem złożonym z 2048 zer.Próbki dopuszczone do konkursu można wczytać jako:
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
1.0.1
: Zoptymalizuj potok Beam, aby uniknąć problemów, ignorując wiersze bez adresu URL obrazu. Dodano także więcej liczników promieni.1.0.2
(domyślnie): Naprawia parsowanie pól boolowskich.
Rozmiar pliku do pobrania :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
W zależności od wywołanej konfiguracji katalog_ręczny powinien zawierać niektóre z następujących podkatalogów:- pociąg
- pociąg-{0000x}-of-00005.tsv.zip
- image_data_train/
- piksele_obrazu/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- test
- test.tsv.zip
- image_data_test/
- piksele_obrazu/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
Rejestracja na stronie https://www.kaggle.com/c/wikipedia-image-caption/data jest wymagana, aby uzyskać linki do pobrania zestawu danych.
Automatyczne buforowanie ( dokumentacja ): Nie
Nadzorowane klucze (Zobacz
as_supervised
doc ):('image_url', 'caption_title_and_reference_description')
Cytat :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (domyślna konfiguracja)
Opis konfiguracji : Przykłady treningowe do konkursu Wikipedia-Image/Caption Matching.
Rozmiar zestawu danych :
1.16 TiB
Podziały :
Podział | Przykłady |
---|---|
'train_with_extended_features' | 37 046 386 |
- Struktura funkcji :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
attribution_passes_lang_id | Napinacz | bool | ||
caption_alt_text_description | Tekst | strunowy | ||
caption_attribution_description | Tekst | strunowy | ||
caption_reference_description | Tekst | strunowy | ||
caption_title_and_reference_description | Tekst | strunowy | ||
context_page_description | Tekst | strunowy | ||
opis_kontekstu_sekcji | Tekst | strunowy | ||
osadzanie | Napinacz | (2048,) | pływak32 | |
hierarchiczny_tytuł_sekcji | Tekst | strunowy | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
obraz_url | Tekst | strunowy | ||
is_main_image | Napinacz | bool | ||
język | Tekst | strunowy | ||
adres_adresu_metadanych | Tekst | strunowy | ||
typ_mima | Tekst | strunowy | ||
oryginalna_wysokość | Napinacz | int32 | ||
oryginalna_szerokość | Napinacz | int32 | ||
ostatnio zmieniona_strona | Napinacz | bool | ||
tytuł strony | Tekst | strunowy | ||
Strona URL | Tekst | strunowy | ||
Tytuł sekcji | Tekst | strunowy |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
Opis konfiguracji : Próbki testowe (bez złotych odpowiedzi) do konkursu Wikipedia-Image/Caption Matching.
Rozmiar zestawu danych :
3.37 GiB
Podziały :
Podział | Przykłady |
---|---|
'test_without_gold' | 92366 |
- Struktura funkcji :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
caption_title_and_reference_description | Tekst | strunowy | ||
osadzanie | Napinacz | (2048,) | pływak32 | |
ID | Tekst | strunowy | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
obraz_url | Tekst | strunowy | ||
adres_adresu_metadanych | Tekst | strunowy |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):