laion400m

Descrição :

O conjunto de dados LAION-400M é totalmente aberto e de acesso gratuito.

Verifique https://laion.ai/laion-400-open-dataset/ para a descrição completa deste conjunto de dados.

Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI calculando a similaridade de cosseno entre os embeddings de texto e imagem e descartando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado através de avaliações humanas e pareceu ser uma boa heurística para estimar a correspondência semântica entre imagem-texto-conteúdo.

Os pares imagem-texto foram extraídos do despejo de dados da web do Common Crawl e são de páginas da web aleatórias rastreadas entre 2014 e 2021.

Documentação adicional : Explore artigos com código
Página inicial : https://laion.ai/blog/laion-400-open-dataset/
Código fonte : tfds.vision_language.laion400m.Laion400m
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : Unknown size
Instruções de download manual : este conjunto de dados requer que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Consulte a seção "Informações sobre download" em https://laion.ai/blog/laion-400-open-dataset/
Armazenado em cache automaticamente ( documentação ): Desconhecido
Divisões :

Dividir	Exemplos

Chaves supervisionadas (consulte o documento as_supervised ): None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ): Ausente.
Citação :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuração padrão)

Estrutura de recursos :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D	Descrição	Faixa de valores
	RecursosDict
rubrica	Texto		corda	Atributo de texto alternativo HTML
imagem	Imagem	(Nenhum, Nenhum, 3)	uint8	imagem
licença	Texto		corda	tipo de licença Creative Commons (se aplicável)
nsfw	ClassLabel		int64	Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original	Escalar		int32	altura original da imagem
largura_original	Escalar		int32	largura original da imagem
semelhança	Escalar		float64	pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0	[0,0, 1,0]
url	Texto		corda	URL da imagem

laion400m/embutimentos

Estrutura de recursos :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D	Descrição	Faixa de valores
	RecursosDict
rubrica	Texto		corda	Atributo de texto alternativo HTML
incorporação de imagem	Tensor	(512,)	float16	Incorporação de imagem CLIP
licença	Texto		corda	tipo de licença Creative Commons (se aplicável)
nsfw	ClassLabel		int64	Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original	Escalar		int32	altura original da imagem
largura_original	Escalar		int32	largura original da imagem
semelhança	Escalar		float64	pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0	[0,0, 1,0]
incorporação de texto	Tensor	(512,)	float16	Incorporação de texto CLIP
url	Texto		corda	URL da imagem

laion400m Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

laion400m/images (configuração padrão)

laion400m/embutimentos

laion400m