PREDICTION DU RISQUE D’ACCIDENT VASCULAIRE CEREBRAL (AVC) A L’AIDE DE L’APPRENTISSAGE AUTOMATIQUE

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

This thesis addresses the prevention of stroke (cerebrovascular accident – CVA), a serious neurological condition and one of the leading causes of death and long-term disability worldwide. The main objective of this work is to develop a reliable predictive system for stroke risk based on real clinical data, leveraging modern techniques in automated data processing and statistical modeling. The adopted methodology follows a rigorous pipeline, from exploratory data analysis to the comparative evaluation of supervised learning models. Particular emphasis was placed on high-quality data preprocessing, including automated techniques for handling missing values, detecting outliers, encoding categorical variables, standardizing numerical features, and balancing class distribution using the SMOTE algorithm. The study is based on a dataset of over 5,000 patients, to which several supervised classification algorithms were applied, including Decision Tree, Random Forest, XGBoost, and Artificial Neural Networks (ANN). Model performance was assessed using standard metrics such as accuracy, recall, F1-score, and AUC-ROC, with Random Forest emerging as the top-performing model, achieving 96% accuracy after data balancing. The entire implementation was carried out in Jupyter Notebook, a powerful interactive environment widely used for machine learning and data science. To support real-world application, a user-friendly graphical interface was also developed, enabling practical integration of the predictive model into clinical prevention workflows. ------------------------------------------------------------------------------- تُعدّ هذه الأطروحة جزءًا من نهجٍ للوقاية من السكتات الدماغية، وهي حالةٌ عصبيةٌ خطيرةٌ تُصنّف من بين الأسباب الرئيسية للوفاة والإعاقة طويلة الأمد عالميًا. يهدف هذا العمل بشكل رئيسي إلى تطوير نظامٍ موثوقٍ للتنبؤ بمخاطر السكتة الدماغية، استنادًا إلى بياناتٍ سريريةٍ واقعية، باستخدام تقنياتٍ حديثةٍ لمعالجة البيانات الآلية والنمذجة الإحصائية. تتبع المنهجية المُعتمدة نهجًا دقيقًا، بدءًا من التحليل الاستكشافي للبيانات وصولًا إلى التقييم المقارن لخوارزميات التعلم المُشرف. وقد أُولي اهتمامٌ خاصٌ لجودة المعالجة المسبقة، ودمج الأساليب الآلية لمعالجة القيم المفقودة، واكتشاف القيم الشاذة، وترميز المتغيرات الفئوية، وتوحيد المتغيرات الرقمية، وموازنة الفئات باستخدام خوارزمية .SMOTE استندت الدراسة إلى مجموعة بياناتٍ لأكثر من 5000 مريض، طُبّقت عليها العديد من خوارزميات التصنيف المُشرف، بما في ذلك شجرة القرار، والغابات العشوائية، وخوارزمية XGBoost ، والشبكات العصبية الاصطناعية .(ANN) تم تقييم أداء النموذج باستخدام مقاييس قياسية مثل الدقة، والتذكر، ودرجة F1، وAUC-ROC، حيث برز نموذج الغابة العشوائية كأفضل نموذج أداء، محققًا دقة بلغت 96% بعد موازنة البيانات. تم تنفيذ المشروع بالكامل باستخدام Jupyter Notebook ، وهي بيئة تفاعلية تُستخدم على نطاق واسع في علوم البيانات والتعلم الآلي. وأخيرًا طُوّرت واجهة رسومية سهلة الاستخدام لتمكين الاستخدام العملي للنظام في بيئة الوقاية السريرية. ------------------------------------------------------------------------------- Ce mémoire s’inscrit dans une démarche de prévention des accidents vasculaires cérébraux (AVC), une pathologie neurologique grave, classée parmi les principales causes de mortalité et de handicap à long terme dans le monde. L’objectif principal de ce travail est de développer un système de prédiction fiable du risque d’AVC, à partir de données cliniques réelles, en exploitant des techniques modernes de traitement automatisé des données et de modélisation statistique. La méthodologie adoptée suit une approche rigoureuse, allant de l’analyse exploratoire des données à l’évaluation comparative d’algorithmes d’apprentissage supervisé. Une attention particulière a été portée à la qualité du prétraitement, intégrant des méthodes automatisées pour la gestion des valeurs manquantes, la détection des valeurs aberrantes, l’encodage des variables catégorielles, la standardisation des variables numériques, ainsi que l’équilibrage des classes via l’algorithme SMOTE. L’étude repose sur un jeu de données de plus de 5 000 patients, sur lequel plusieurs algorithmes de classification supervisée ont été appliqués, notamment l’arbre de décision, la forêt aléatoire, XGBoost et les réseaux de neurones artificiels (ANN). Les performances des modèles ont été évaluées à l’aide de métriques standards telles que la précision, le rappel, le F1-score et l’AUC-ROC, avec la forêt aléatoire (Random Forest) se distinguant comme le modèle le plus performant, atteignant 96 % de précision après équilibrage des données. L’ensemble de l’implémentation a été réalisé dans Jupyter Notebook, un environnement interactif largement utilisé en science des données et en apprentissage automatique. Enfin, une interface graphique conviviale a été développée pour permettre une utilisation pratique du système dans un cadre clinique de prévention.

Description

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By