- विवरण :
विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता।
यह प्रतियोगिता Google अनुसंधान और कुछ बाहरी सहयोगियों के सहयोग से विकिमीडिया फ़ाउंडेशन में अनुसंधान टीम द्वारा आयोजित की जाती है। यह प्रतियोगिता Google रिसर्च द्वारा प्रकाशित WIT डेटासेट पर आधारित है, जैसा कि इस SIGIR पेपर में विस्तृत है।
इस प्रतियोगिता में, आप एक मॉडल का निर्माण करेंगे जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, आप अपने मॉडल को कई भाषाओं में लेख के शीर्षकों या जटिल अनुशीर्षकों के साथ दी गई छवियों को संबद्ध करने के लिए प्रशिक्षित करेंगे। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे। सफल होने पर, आप सबसे बड़े ऑनलाइन विश्वकोश की पहुंच में योगदान देंगे। लाखों विकिपीडिया पाठक और संपादक बड़े पैमाने पर मीडिया को अधिक आसानी से समझने, खोजने और उसका वर्णन करने में सक्षम होंगे। नतीजतन, आप सभी के लिए सीखने में सुधार के लिए एक खुले मॉडल में योगदान देंगे।
होमपेज : https://www.kaggle.com/c/wikipedia-image-caption/code
स्रोत कोड :
tfds.vision_language.wit_kaggle.WitKaggle
संस्करण :
1.0.0
: प्रारंभिक रिलीज। यह विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता ( https://www.kaggle.com/c/wikipedia-image-caption/data ) से ट्रेन और टेस्ट डेटासेट प्रदान करता है।प्रतियोगिता का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, मॉडल को कई भाषाओं में दिए गए चित्रों को लेख के शीर्षक या जटिल कैप्शन के साथ जोड़ने के लिए प्रशिक्षित किया जाना चाहिए। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे।
ध्यान दें कि यह रिलीज़ परीक्षण सेट के लिए जमीनी सच्चाई प्रदान नहीं करती है, क्योंकि यह अभी तक कागल प्रतियोगिता द्वारा प्रदान नहीं किया गया है।
ध्यान दें कि सभी प्रशिक्षण अवलोकनों में संबंधित छवि डेटा नहीं होता है। जारी की गई छवियों में मनुष्यों वाली सभी छवियां शामिल नहीं हैं। उन नमूनों के लिए जो छवि डेटा से संबद्ध नहीं हैं, निम्नलिखित छवि सुविधाओं का उपयोग किया जाता है:
image
एक बाइट -64 एन्कोडेड रिक्त छवि है,embedding
2048 शून्य का वेक्टर है।प्रतियोगिता के लिए जारी किए गए
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
को इस प्रकार लोड किया जा सकता है:1.0.1
: संघर्ष करने वालों से बचने के लिए बीम पाइपलाइन का अनुकूलन करें, छवि URL के बिना पंक्तियों को अनदेखा करें। और बीम काउंटर भी जोड़े।1.0.2
(डिफ़ॉल्ट): बूलियन फ़ील्ड की पार्सिंग ठीक करता है।
डाउनलोड आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
बुलाए गए कॉन्फ़िगरेशन के आधार पर, मैन्युअल_डीआईआर में निम्न में से कुछ उपनिर्देशिकाएं होनी चाहिए:- रेल गाडी
- ट्रेन-{0000x}-of-00005.tsv.zip
- इमेज_डेटा_ट्रेन/
- इमेज_पिक्सेल/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- परीक्षण
- test.tsv.zip
- इमेज_डेटा_टेस्ट/
- इमेज_पिक्सेल/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
डेटासेट डाउनलोड करने के लिए लिंक प्राप्त करने के लिए https://www.kaggle.com/c/wikipedia-image-caption/data पर पंजीकरण की आवश्यकता है।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('image_url', 'caption_title_and_reference_description')
उद्धरण :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : विकिपीडिया-इमेज/कैप्शन मिलान प्रतियोगिता के लिए प्रशिक्षण नमूने।
डेटासेट का आकार :
1.16 TiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train_with_extended_features' | 37,046,386 |
- फ़ीचर संरचना :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
एट्रिब्यूशन_पास_लैंग_आईडी | टेन्सर | बूल | ||
कैप्शन_alt_text_description | मूलपाठ | डोरी | ||
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन | मूलपाठ | डोरी | ||
कैप्शन_संदर्भ_विवरण | मूलपाठ | डोरी | ||
कैप्शन_शीर्षक_और_संदर्भ_विवरण | मूलपाठ | डोरी | ||
प्रसंग_पृष्ठ_विवरण | मूलपाठ | डोरी | ||
संदर्भ_अनुभाग_विवरण | मूलपाठ | डोरी | ||
एम्बेडिंग | टेन्सर | (2048,) | फ्लोट32 | |
श्रेणीबद्ध_अनुभाग_शीर्षक | मूलपाठ | डोरी | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि यूआरएल | मूलपाठ | डोरी | ||
is_main_image | टेन्सर | बूल | ||
भाषा: हिन्दी | मूलपाठ | डोरी | ||
मेटाडेटा_url | मूलपाठ | डोरी | ||
माइम प्रकार | मूलपाठ | डोरी | ||
मूल_ऊंचाई | टेन्सर | int32 | ||
मूल_चौड़ाई | टेन्सर | int32 | ||
page_changed_recently | टेन्सर | बूल | ||
पृष्ठ का शीर्षक | मूलपाठ | डोरी | ||
पेज यूआरएल | मूलपाठ | डोरी | ||
अनुभाग शीर्षक | मूलपाठ | डोरी |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
कॉन्फिग विवरण : विकिपीडिया-इमेज/कैप्शन मैचिंग प्रतियोगिता के लिए टेस्ट सैंपल (बिना गोल्ड उत्तर के)।
डेटासेट का आकार :
3.37 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test_without_gold' | 92,366 |
- फ़ीचर संरचना :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कैप्शन_शीर्षक_और_संदर्भ_विवरण | मूलपाठ | डोरी | ||
एम्बेडिंग | टेन्सर | (2048,) | फ्लोट32 | |
पहचान | मूलपाठ | डोरी | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि यूआरएल | मूलपाठ | डोरी | ||
मेटाडेटा_url | मूलपाठ | डोरी |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
- विवरण :
विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता।
यह प्रतियोगिता Google अनुसंधान और कुछ बाहरी सहयोगियों के सहयोग से विकिमीडिया फ़ाउंडेशन में अनुसंधान टीम द्वारा आयोजित की जाती है। यह प्रतियोगिता Google रिसर्च द्वारा प्रकाशित WIT डेटासेट पर आधारित है, जैसा कि इस SIGIR पेपर में विस्तृत है।
इस प्रतियोगिता में, आप एक मॉडल का निर्माण करेंगे जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, आप अपने मॉडल को कई भाषाओं में लेख के शीर्षकों या जटिल अनुशीर्षकों के साथ दी गई छवियों को संबद्ध करने के लिए प्रशिक्षित करेंगे। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे। सफल होने पर, आप सबसे बड़े ऑनलाइन विश्वकोश की पहुंच में योगदान देंगे। लाखों विकिपीडिया पाठक और संपादक बड़े पैमाने पर मीडिया को अधिक आसानी से समझने, खोजने और उसका वर्णन करने में सक्षम होंगे। नतीजतन, आप सभी के लिए सीखने में सुधार के लिए एक खुले मॉडल में योगदान देंगे।
होमपेज : https://www.kaggle.com/c/wikipedia-image-caption/code
स्रोत कोड :
tfds.vision_language.wit_kaggle.WitKaggle
संस्करण :
1.0.0
: प्रारंभिक रिलीज। यह विकिपीडिया - इमेज/कैप्शन मैचिंग कागल प्रतियोगिता ( https://www.kaggle.com/c/wikipedia-image-caption/data ) से ट्रेन और टेस्ट डेटासेट प्रदान करता है।प्रतियोगिता का लक्ष्य एक ऐसे मॉडल का निर्माण करना है जो स्वचालित रूप से एक छवि के निकटतम पाठ को पुनः प्राप्त करता है। विशेष रूप से, मॉडल को कई भाषाओं में दिए गए चित्रों को लेख के शीर्षक या जटिल कैप्शन के साथ जोड़ने के लिए प्रशिक्षित किया जाना चाहिए। सर्वोत्तम मॉडल विकिपीडिया छवियों के सिमेंटिक ग्रैन्युलैरिटी के लिए जिम्मेदार होंगे।
ध्यान दें कि यह रिलीज़ परीक्षण सेट के लिए जमीनी सच्चाई प्रदान नहीं करती है, क्योंकि यह अभी तक कागल प्रतियोगिता द्वारा प्रदान नहीं किया गया है।
ध्यान दें कि सभी प्रशिक्षण अवलोकनों में संबंधित छवि डेटा नहीं होता है। जारी की गई छवियों में मनुष्यों वाली सभी छवियां शामिल नहीं हैं। उन नमूनों के लिए जो छवि डेटा से संबद्ध नहीं हैं, निम्नलिखित छवि सुविधाओं का उपयोग किया जाता है:
image
एक बाइट -64 एन्कोडेड रिक्त छवि है,embedding
2048 शून्य का वेक्टर है।प्रतियोगिता के लिए जारी किए गए
tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
को इस प्रकार लोड किया जा सकता है:1.0.1
: संघर्ष करने वालों से बचने के लिए बीम पाइपलाइन का अनुकूलन करें, छवि URL के बिना पंक्तियों को अनदेखा करें। और बीम काउंटर भी जोड़े।1.0.2
(डिफ़ॉल्ट): बूलियन फ़ील्ड की पार्सिंग ठीक करता है।
डाउनलोड आकार :
Unknown size
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
बुलाए गए कॉन्फ़िगरेशन के आधार पर, मैन्युअल_डीआईआर में निम्न में से कुछ उपनिर्देशिकाएं होनी चाहिए:- रेल गाडी
- ट्रेन-{0000x}-of-00005.tsv.zip
- इमेज_डेटा_ट्रेन/
- इमेज_पिक्सेल/
- train_image_pixels_part-00{000-199}.csv.gz
- resnet_embeddings/
- train_resnet_embeddings_part-00{000-214}.csv.gz
- परीक्षण
- test.tsv.zip
- इमेज_डेटा_टेस्ट/
- इमेज_पिक्सेल/
- test_image_pixels_part-0000{0-4}.csv
- resnet_embeddings/
- test_resnet_embeddings_part-0000{0-9}.csv
डेटासेट डाउनलोड करने के लिए लिंक प्राप्त करने के लिए https://www.kaggle.com/c/wikipedia-image-caption/data पर पंजीकरण की आवश्यकता है।
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('image_url', 'caption_title_and_reference_description')
उद्धरण :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}
wit_kaggle/train_with_extended_features (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : विकिपीडिया-इमेज/कैप्शन मिलान प्रतियोगिता के लिए प्रशिक्षण नमूने।
डेटासेट का आकार :
1.16 TiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train_with_extended_features' | 37,046,386 |
- फ़ीचर संरचना :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
एट्रिब्यूशन_पास_लैंग_आईडी | टेन्सर | बूल | ||
कैप्शन_alt_text_description | मूलपाठ | डोरी | ||
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन | मूलपाठ | डोरी | ||
कैप्शन_संदर्भ_विवरण | मूलपाठ | डोरी | ||
कैप्शन_शीर्षक_और_संदर्भ_विवरण | मूलपाठ | डोरी | ||
प्रसंग_पृष्ठ_विवरण | मूलपाठ | डोरी | ||
संदर्भ_अनुभाग_विवरण | मूलपाठ | डोरी | ||
एम्बेडिंग | टेन्सर | (2048,) | फ्लोट32 | |
श्रेणीबद्ध_अनुभाग_शीर्षक | मूलपाठ | डोरी | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि यूआरएल | मूलपाठ | डोरी | ||
is_main_image | टेन्सर | बूल | ||
भाषा: हिन्दी | मूलपाठ | डोरी | ||
मेटाडेटा_url | मूलपाठ | डोरी | ||
माइम प्रकार | मूलपाठ | डोरी | ||
मूल_ऊंचाई | टेन्सर | int32 | ||
मूल_चौड़ाई | टेन्सर | int32 | ||
page_changed_recently | टेन्सर | बूल | ||
पृष्ठ का शीर्षक | मूलपाठ | डोरी | ||
पेज यूआरएल | मूलपाठ | डोरी | ||
अनुभाग शीर्षक | मूलपाठ | डोरी |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):
wit_kaggle/test_without_gold
कॉन्फिग विवरण : विकिपीडिया-इमेज/कैप्शन मैचिंग प्रतियोगिता के लिए टेस्ट सैंपल (बिना गोल्ड उत्तर के)।
डेटासेट का आकार :
3.37 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test_without_gold' | 92,366 |
- फ़ीचर संरचना :
FeaturesDict({
'caption_title_and_reference_description': Text(shape=(), dtype=string),
'embedding': Tensor(shape=(2048,), dtype=float32),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image_url': Text(shape=(), dtype=string),
'metadata_url': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कैप्शन_शीर्षक_और_संदर्भ_विवरण | मूलपाठ | डोरी | ||
एम्बेडिंग | टेन्सर | (2048,) | फ्लोट32 | |
पहचान | मूलपाठ | डोरी | ||
छवि | छवि | (कोई नहीं, कोई नहीं, 3) | uint8 | |
छवि यूआरएल | मूलपाठ | डोरी | ||
मेटाडेटा_url | मूलपाठ | डोरी |
- चित्र ( tfds.show_examples ):
- उदाहरण ( tfds.as_dataframe ):