laion400m

  • Descrição :

O conjunto de dados LAION-400M é totalmente aberto e de acesso gratuito.

Verifique https://laion.ai/laion-400-open-dataset/ para a descrição completa deste conjunto de dados.

Todas as imagens e textos no conjunto de dados LAION-400M foram filtrados com o CLIP da OpenAI calculando a similaridade de cosseno entre os embeddings de texto e imagem e descartando aqueles com similaridade abaixo de 0,3. O limite de 0,3 foi determinado através de avaliações humanas e pareceu ser uma boa heurística para estimar a correspondência semântica entre imagem-texto-conteúdo.

Os pares imagem-texto foram extraídos do despejo de dados da web do Common Crawl e são de páginas da web aleatórias rastreadas entre 2014 e 2021.

Dividir Exemplos
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuração padrão)

  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição Faixa de valores
RecursosDict
rubrica Texto corda Atributo de texto alternativo HTML
imagem Imagem (Nenhum, Nenhum, 3) uint8 imagem
licença Texto corda tipo de licença Creative Commons (se aplicável)
nsfw ClassLabel int64 Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original Escalar int32 altura original da imagem
largura_original Escalar int32 largura original da imagem
semelhança Escalar float64 pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 [0,0, 1,0]
url Texto corda URL da imagem

laion400m/embutimentos

  • Estrutura de recursos :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição Faixa de valores
RecursosDict
rubrica Texto corda Atributo de texto alternativo HTML
incorporação de imagem Tensor (512,) float16 Incorporação de imagem CLIP
licença Texto corda tipo de licença Creative Commons (se aplicável)
nsfw ClassLabel int64 Etiqueta NSFW (detectada com CLIP). Tags incoesas e ausentes são substituídas por UNTAGGED
altura_original Escalar int32 altura original da imagem
largura_original Escalar int32 largura original da imagem
semelhança Escalar float64 pontuação de similaridade de cosseno entre a incorporação de texto e imagem. Os valores ausentes são padronizados como -1,0 [0,0, 1,0]
incorporação de texto Tensor (512,) float16 Incorporação de texto CLIP
url Texto corda URL da imagem