ai2dcaption

  • Sự miêu tả :

Tập dữ liệu này chủ yếu dựa trên Bộ dữ liệu AI2D (xem tại đây ).

Xem Phần 4.1 trong bài viết của chúng tôi để biết quy trình chú thích tập dữ liệu AI2D-Caption.

Tách ra Ví dụ
'auditor_llm_training_examples' 30
'gpt4v' 4,903
'llava_15' 4,902
'planner_llm_training_examples' 30
'test' 75
  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'entities': Sequence({
        'bounds': BBoxFeature(shape=(4,), dtype=float32),
        'cat': ClassLabel(shape=(), dtype=int64, num_classes=10),
        'from': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'label': Text(shape=(), dtype=string),
        'to': Text(shape=(), dtype=string),
        'type': ClassLabel(shape=(), dtype=int64, num_classes=5),
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=The image of the diagram.),
    'image_filename': Text(shape=(), dtype=string),
    'layout': ClassLabel(shape=(), dtype=int64, num_classes=7),
    'relationships': Sequence(Text(shape=(), dtype=string)),
    'topic': ClassLabel(shape=(), dtype=int64, num_classes=4),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
đầu đề Chữ sợi dây
thực thể Sự liên tiếp
thực thể/giới hạn Tính năng BBox (4,) phao32
thực thể/con mèo Nhãn lớp int64
thực thể/từ Chữ sợi dây
thực thể/id Chữ sợi dây
thực thể/nhãn Chữ sợi dây
thực thể/đến Chữ sợi dây
thực thể/loại Nhãn lớp int64
hình ảnh Hình ảnh (Không, Không, 3) uint8 Hình ảnh của sơ đồ.
tên_tệp_hình ảnh Chữ sợi dây Tên tệp hình ảnh. ví dụ: "1337.png"
cách trình bày Nhãn lớp int64
mối quan hệ Trình tự(Văn bản) (Không có,) sợi dây
đề tài Nhãn lớp int64

Trực quan hóa

  • Trích dẫn :
@inproceedings{Zala2024DiagrammerGPT,
        author = {Abhay Zala and Han Lin and Jaemin Cho and Mohit Bansal},
        title = {DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning},
        year = {2024},
        booktitle = {COLM},
}