Fake News Detection Using GNNS
Loading...
Files
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
The swift development of synthetic media, including AI-generated written content, manipulated images, and algorithmically boosted misinformation, has made conventional methods of detecting fake news progressively less effective. These approaches tend not to account for the multimodal character of contemporary disinformation campaigns, in which misleading content takes advantage of both affective appeal and networked propagation. In this work, we propose a heterogeneous graph neural network (GNN) model that integrates three major components jointly: (1) SBERT-based semantic text representations, (2) CLIP-based visual features, and (3) contextual metadata such as source credibility and manipulation patterns. Our graph formulation represents news reports as nodes connected by common metadata links (e.g., publication dates and sources) and content-driven connections arising from cross-modal feature matching. Implemented using PyTorch Geometric with a 3-layer GraphSAGE backbone, the network attained 99% accuracy on the MMFakeBench benchmark using cross-modal feature fusion. Notably, external validation on 2,000 Fakeddit samples was 75% accurate without fine-tuning, guaranteeing real-world generalizability. Ablation experiments found metadata edges to contribute the most (21% F1 decrease when removed), followed by visual features (15% decrease). This work bridges the gap between isolated content analysis and network-aware detection, offering a scalable solution for platforms combating industrialized disinformation.
----------------------------------------------------------------------------
في ظلّ التطوّر المتسارع لتقنيات التزييف العميق، من نصوصٍ مولَّدة بالذكاء الاصطناعي إلى صورٍ مُعدَّلة وخوارزميات تضخيم التضليل، أصبحت أدوات كشف الأخبار المزيّفة التقليدية عاجزة عن مجاراة التعقيد المتزايد لهذه الظاهرة. تفتقر هذه الأدوات إلى القدرة على تحليل الحملات المنظمة التي تجمع بين التلاعب العاطفي في المحتوى وآليات الانتشار الشبكي المُحسَّنة. تقدّم هذه الدراسة إطار عملٍ مبتكرًا يعتمد على الشبكات العصبونية البيانية متعددة الوسائط، حيثُ يتم دمج ثلاث طبقات تحليلية: (1) التضمينات الدلالية للنصوص عبر تقنية SBERT، (2) السمات البصرية المستخلصة بواسطة CLIP، و(3) البيانات الوصفية السياقية كمصداقية المصدر وأنماط التلاعب. يعتمد النموذج على بناء شبكة بيانية غير متجانسة تربط المقالات كعُقدٍ متصلة عبر علاقات ميتاداتا مشتركة (مصادر، تواريخ نشر) وتحليلات محتوى متعدد الوسائط. عند تطبيقه باستخدام PyTorch Geometric مع بنية GraphSAGE ثلاثية الطبقات، حقق النموذج دقةً بنسبة 99% على مجموعة MMFakeBench المعيارية، مع الحفاظ على فعالية عملية (75% دقة) عند اختباره على 2000 عينة من بيانات Fakeddit دون ضبط مُسبق. كشفت دراسات الاستبعاد عن الدور المحوري للبيانات الوصفية (انخفاض الأداء بنسبة 21% عند إزالتها) تليها السمات البصرية (انخفاض 15%)، مما يؤكد أهمية النهج التكاملي. تُقدّم هذه الأطروحة جسرًا بين تحليل المحتوى المنعزل والكشف القائم على السياق الشبكي، مُوفِّرةً أداة قابلة للتوسع لمجابهة التضليل المنظم في العصر الرقمي.
-----------------------------------------------------------------------------
L'essor des médias synthétiques, qu’il s’agisse de textes générés par IA, d’images manipulées ou de désinformation amplifiée par des algorithmes, a considérablement affaibli l'efficacité des méthodes traditionnelles de détection des fausses nouvelles. Ces approches ne parviennent souvent pas à saisir la complexité des campagnes modernes de désinformation, où les contenus trompeurs jouent autant sur les émotions que sur la propagation virale à travers les réseaux sociaux. Dans cette étude, nous proposons une architecture basée sur des réseaux de neurones graphiques (GNN) hétérogènes, intégrant trois dimensions clés : (1) les embeddings sémantiques de textes via SBERT, (2) les représentations visuelles issues de CLIP, et (3) les métadonnées contextuelles comme la crédibilité des sources ou les schémas de manipulation. Notre modèle représente les articles comme des nœuds reliés entre eux par des liens de métadonnées (par exemple, dates de publication ou sources communes) ainsi que par des connexions issues de l’analyse croisée du contenu multimodal. Implémenté avec PyTorch Geometric autour d'un réseau GraphSAGE à trois couches, le système atteint 99 % de précision sur le benchmark MMFakeBench grâce à une fusion cohérente des modalités. Lors d’une évaluation externe sur 2 000 échantillons de Fakeddit, le modèle a maintenu une précision de 75 % sans ajustement préalable, démontrant sa capacité à généraliser dans des contextes réels. Les études d'ablation montrent que les métadonnées jouent un rôle déterminant (perte de 21 % du score F1 sans elles), suivies des caractéristiques visuelles (baisse de 15 %). Cette recherche vise à doter les plateformes d’un outil fiable et évolutif pour lutter contre une désinformation de plus en plus industrialisée, en alliant intelligence des réseaux et compréhension contextuelle des contenus.