Image-based Dialogue

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

This thesis explores a novel approach to Visual Question Answering (VQA) by incorporating a multimodal AI system that leverages visual, textual, and auditory inputs. Traditional VQA systems are limited to text-based questions, hindering accessibility for visually impaired users. This research addresses this gap by allowing users to submit images and ask questions through either text or voice commands. The system employs ViLT (Vision and Language Transformer) for visual question answering, integrating text embeddings to bridge the gap between visual and textual information. To handle audio input, we implemented pre-trained deep learning models, ensuring accurate audio question interpretation across multiple languages. This project demonstrates the feasibility and benefits of a multimodal AI system for VQA. The ability to interact with users through sight, sound, and text opens doors for innovative applications in education, healthcare, and accessibility tools. ------------------------------------------------------------------------------------- تبحثُهذه المذكرة في نهج مبتكر لِلإِجَابَةِ عَلَى الأَسئِلَةِ المُريَّةِ (VQA) مِنْ خِلَالِ دَعْ نِظَامِ ذَكَاءٍ صِنَاعِي مُتَعَـددالوَسَائِطِ يَسْتَفِيدُ مِنَ المُدْخَلاتِ المُرئيَّةِ وَالنَّصِيَّةِ وَالسَّمْعِيَّةِ. تَقْتَصِرُ أَنْظِمَةُ VOA التَّقْلِيدِيَّةُ عَلَى الأَسْئِلَةِ النَّصِيَّةِ، مِمَّا يُعِيقُ إمكانية الوُصُولِ إِلَيْهَا لِلْمُسْتَخدِمِينَ ضِعَافِ البَصَرِ. يُرْكَز هَذَا البَحْثُ عَلَى مُعَالَجَةِ هَذِهِ الفَجْوَةِ مِنْ خِلَالِ السَّمَاحِ لِلْمُسْتَخدِمِينَ بِإِرْسَالِ الصُّوَرِ وَطَرْحِ الأَسْئِلَةِ مِنْ خِلَالِ الأَوَامِرِ النَّصِيَّةِ أَوِ الصَّوْتِيَّةِ. يَسْتَخْدِمُ النِّظَامُ ViLT (مُحَول الرُّؤْيَةِ وَاللُّغَةِ (لِلإِجَابَةِ عَلَى الأَسْئِلَةِ المُرئيَّةِ، حَيْثُ يُدْمج تَضْمِينَاتِ النُّصُوصِ لِسَدِّ الفَجْوَةِ بينَ المَعْلُومَاتِ المُرئيَّةِ وَالنَّصِيَّةِ. لِلتَّعَامُلِ مَعَ المُدْخَلَاتِ الصَّوْتِيَّةِ، قُمْنَا بِتَنْفِيذ نماذج تَعلَّم عَمِيقٍ مُدَرَّبَةٍ مُسْبَقًا، مما يُؤَكِّدُتفسيرا دقيقا للأسئلة الصوتية عبر لغات متعددة. يُظْهِرُ هَذَا المَشْرُوعُ جَدْوَى وَمَزَايَا نِظَامِ الذَّكَاءِ الصَّنَاعِيِّ المُتعدّدِ الوَسَائِطِ لِ VOA. إِنَّ الْقُدْرَةَ عَلَى التَّفَاعُلِ مَعَ المُسْتَخْدِمِينَ مِنْ خِلَالِ البَصَرِ وَالصَّوْتِ وَالنَّص تَفْتَحُ أَبْوَابًا أَمَامَ تطبيقات مُبتَكَرَةٍ فِي التَّعْلِيمِ وَالرِّعَايَةِ الصَّحِيَّةِ وَأَدَوَاتِإمكانية الوصول. ----------------------------------------------------------------------------------- Ce mémoire explore une approche innovante de la réponse aux questions visuelles (VQA) en incorporant un système d'IA multimodale qui exploite des entrées visuelles, textuelles et auditives. Les systèmes VQA traditionnels sont limités aux questions textuelles, ce qui entrave l'accessibilité pour les utilisateurs malvoyants. Cette recherche aborde cette lacune en permettant aux utilisateurs de soumettre des images et de poser des questions par le biais de commandes textuelles ou vocales. Le système utilise ViLT (Vision and Language Transformer) pour la réponse aux questions visuelles, en intégrant des plongements de texte pour combler le fossé entre l'information visuelle et textuelle. Pour traiter les entrées audio, nous avons implémenté des modèles d'apprentissage profond pré-entraînés, garantissant une interprétation précise des questions audio dans plusieurs langues. Ce projet démontre la faisabilité et les avantages d'un système d'IA multimodale pour la VQA. La capacité d'interagir avec les utilisateurs par la vue, le son et le texte ouvre la voie à des applications innovantes dans l'éducation, la santé et les outils d'accessibilité.

Description

Keywords

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By