khái niệm_captions

Tài liệu tham khảo:

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptual_captions')
  • Sự miêu tả :
Image captioning dataset
The resulting dataset (version 1.1) has been split into Training, Validation, and Test splits. The Training split consists of 3,318,333 image-URL/caption pairs, with a total number of 51,201 total token types in the captions (i.e., total vocabulary). The average number of tokens per captions is 10.3 (standard deviation of 4.5), while the median is 9.0 tokens per caption. The Validation split consists of 15,840 image-URL/caption pairs, with similar statistics.
  • Giấy phép : Không có giấy phép được biết đến
  • Phiên bản : 1.1.0
  • Chia tách :
Tách ra Ví dụ
'train' 3318333
'validation' 15840
  • Đặc trưng :
{
    "id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "caption": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "url": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

không có nhãn hiệu

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptual_captions/unlabeled')
  • Sự miêu tả :
Google's Conceptual Captions dataset has more than 3 million images, paired with natural-language captions.
In contrast with the curated style of the MS-COCO images, Conceptual Captions images and their raw descriptions are harvested from the web,
and therefore represent a wider variety of styles. The raw descriptions are harvested from the Alt-text HTML attribute associated with web images.
The authors developed an automatic pipeline that extracts, filters, and transforms candidate image/caption pairs, with the goal of achieving a balance of cleanliness,
informativeness, fluency, and learnability of the resulting captions.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.

  • Phiên bản : 0.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 3318333
'validation' 15840
  • Đặc trưng :
{
    "image_url": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "caption": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}

dán nhãn

Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:

ds = tfds.load('huggingface:conceptual_captions/labeled')
  • Sự miêu tả :
Google's Conceptual Captions dataset has more than 3 million images, paired with natural-language captions.
In contrast with the curated style of the MS-COCO images, Conceptual Captions images and their raw descriptions are harvested from the web,
and therefore represent a wider variety of styles. The raw descriptions are harvested from the Alt-text HTML attribute associated with web images.
The authors developed an automatic pipeline that extracts, filters, and transforms candidate image/caption pairs, with the goal of achieving a balance of cleanliness,
informativeness, fluency, and learnability of the resulting captions.
  • Giấy phép : Tập dữ liệu có thể được sử dụng tự do cho bất kỳ mục đích nào, mặc dù việc thừa nhận Google LLC ("Google") là nguồn dữ liệu sẽ được đánh giá cao. Tập dữ liệu được cung cấp "NGUYÊN TRẠNG" mà không có bất kỳ sự bảo đảm, rõ ràng hay ngụ ý nào. Google từ chối mọi trách nhiệm pháp lý đối với mọi thiệt hại, trực tiếp hoặc gián tiếp, phát sinh từ việc sử dụng tập dữ liệu.

  • Phiên bản : 0.0.0

  • Chia tách :

Tách ra Ví dụ
'train' 2007090
  • Đặc trưng :
{
    "image_url": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "caption": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "labels": {
        "feature": {
            "dtype": "string",
            "id": null,
            "_type": "Value"
        },
        "length": -1,
        "id": null,
        "_type": "Sequence"
    },
    "MIDs": {
        "feature": {
            "dtype": "string",
            "id": null,
            "_type": "Value"
        },
        "length": -1,
        "id": null,
        "_type": "Sequence"
    },
    "confidence_scores": {
        "feature": {
            "dtype": "float64",
            "id": null,
            "_type": "Value"
        },
        "length": -1,
        "id": null,
        "_type": "Sequence"
    }
}