A Contribution to Automatic Speech Signal Processing: Application to Voice and Speech Disorder Identification
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Voice disorders, particularly dysphonia, present considerable challenges to public health and individual well-being. They may severely limit a person’s ability to communicate, affecting emotional expression, social interaction, and professional performance. Despite their prevalence, traditional diagnostic methods for voice disorders remain largely subjective, invasive, and time-consuming, requiring specialized equipment and expert intervention. This highlights the urgent need for objective, automated, and non-invasive diagnostic tools. This doctoral research introduces a comprehensive framework for the automatic detection and classification of voice disorders using signal processing and machine learning techniques. The proposed system acoustically analyzes vocal signals, extracts relevant features, and classifies pathological conditions with high accuracy. The work is structured around four main components: an anatomical and functional analysis of the vocal system, the extraction of acoustic biomarkers associated with dysphonia and related disorders, the optimization and evaluation of classification algorithms such as SVM, KNN, Decision Trees, and deep learning models like LSTM and CNN, and the development of an integrated diagnostic system tailored for clinical use. The proposed system is validated through three key applications: the detection of COVID-19 through cough sound analysis, the identification of spasmodic dysphonia caused by laryngeal muscle spasms, and the early recognition of precancerous vocal fold leukoplakia. These case studies demonstrate the system’s flexibility and robustness across different pathologies, populations, and acoustic conditions. Various datasets and standardized performance metrics were used to assess the reliability and generalizability of the proposed models. The results show clear improvements in diagnostic precision, reduced reliance on invasive procedures, and enhanced clinical decision support. Beyond its immediate diagnostic value, the system offers a scalable, low-cost, and accessible solution, especially for under-resourced healthcare environments. This research contributes to the growing field of intelligent voice analysis and lays the foundation for advanced tools capable of supporting clinicians, improving patient outcomes, and reducing the burden on healthcare systems.
---------------------------------------------------------------------------------------
تُعد اضطرابات الصوت، وخصوصًا بُحة الصوت، من التحديات البارزة التي تؤثر على الصحة العامة وجودة حياة الأفراد، لما لها من أثر مباشر على القدرة على التواصل والتعبير العاطفي والمجال المهني. وتعتمد طرق التشخيص التقليدية غالبًا على تقييمات ذاتية وإجراءات جراحية، مما يبرز الحاجة إلى بدائل موضوعية وموثوقة وغير جراحية يمكن أن تسهم في تسريع عملية التشخيص وتحسين دقته.
تهدف هذه الأطروحة إلى تطوير إطار متكامل لاكتشاف وتصنيف اضطرابات الصوت تلقائيًا باستخدام تقنيات معالجة الإشارة الصوتية وتعلم الآلة. يقوم النظام المقترح بتحليل الإشارات الصوتية بدقة، واستخلاص الخصائص الصوتية المرتبطة بالحالات المرضية، وتصنيفها بدقة عالية بالاعتماد على خوارزميات فعالة. ويتضمن العمل أربعة محاور رئيسية: تحليل تشريحي ووظيفي للجهاز الصوتي، واستخلاص المؤشرات الصوتية الخاصة ببُحة الصوت، وتحسين وتقييم خوارزميات التصنيف مثل SVM وKNN وأشجار القرار والنماذج العميقة مثل LSTM وCNN، وأخيرًا تطوير نظام تشخيصي متكامل قابل للتطبيق في الاستخدام الطبي.
تم اختبار النظام من خلال عدة تطبيقات حقيقية، منها الكشف عن فيروس كوفيد-19 من خلال أصوات السعال، والتعرف على البُحة الصوتية التشنجية الناتجة عن اضطرابات عصبية، والكشف المبكر عن الطُلاوات السابقة للتسرطن على الحبال الصوتية. وشملت التجارب قواعد بيانات متنوعة وأدوات تقييم متعددة لضمان دقة النتائج وموثوقيتها.
تُبرز نتائج هذا البحث قدرة النظم الذكية على دعم القرارات الطبية وتقليل الحاجة إلى التدخلات الجراحية، كما توفر بديلاً فعالًا يمكن اعتماده في البيئات الطبية، خصوصًا في المناطق التي تفتقر إلى خبراء الصوت أو الأجهزة المتقدمة. إن هذه الأطروحة تمثل خطوة متقدمة في مجال تحليل الصوت آليًا، وتسهم في إرساء أسس علمية وتطبيقية لبناء أدوات تشخيص أكثر ذكاءً وكفاءة في مجال اضطرابات الصوت.
----------------------------------------------------------------------------------------
Les troubles de la voix, en particulier la dysphonie, représentent un problème majeur pour la santé publique et le bien-être individuel. Ils peuvent limiter gravement la capacité d’un individu à communiquer, affectant son expression émotionnelle, ses interactions sociales et sa performance professionnelle. Malgré leur fréquence, les méthodes de diagnostic traditionnelles restent largement subjectives, invasives et longues, nécessitant des équipements spécialisés et l’intervention d’experts. Cela souligne le besoin urgent de solutions de diagnostic automatisées, objectives et non invasives. Cette thèse propose un cadre complet pour la détection et la classification automatique des troubles vocaux, en combinant des techniques de traitement du signal et d’apprentissage automatique. Le système développé analyse acoustiquement les signaux vocaux, extrait des caractéristiques pertinentes et classe les pathologies avec une grande précision. Le travail repose sur quatre axes principaux : l’analyse anatomique et fonctionnelle de l’appareil vocal, l’extraction de biomarqueurs acoustiques liés à la dysphonie et aux pathologies associées, l’optimisation et l’évaluation d’algorithmes de classification tels que SVM, KNN, arbres de décision, ainsi que les modèles d’apprentissage profond comme LSTM et CNN, et enfin la mise en œuvre d’un système diagnostique intégré destiné à un usage clinique. Le système a été validé dans le cadre de trois applications principales : la détection de la COVID-19 à partir de sons de toux, l’identification de la dysphonie spasmodique causée par des spasmes musculaires laryngés, et la détection précoce de la leucoplasie précancéreuse des plis vocaux. Ces cas d’étude démontrent la polyvalence et la robustesse du système face à des pathologies variées, des populations différentes et des conditions acoustiques diverses. Des bases de données multiples et des mesures d’évaluation standardisées ont été utilisées pour garantir la fiabilité et la généralisabilité des modèles proposés. Les résultats montrent une nette amélioration de la précision diagnostique, une réduction du recours aux procédures invasives et un meilleur soutien à la décision clinique. En plus de sa valeur diagnostique, le système offre une solution évolutive, économique et accessible, en particulier pour les environnements médicaux à ressources limitées. Cette recherche s’inscrit dans le développement de l’analyse vocale intelligente et jette les bases d’outils avancés capables de soutenir les cliniciens, d’améliorer les résultats pour les patients et de réduire la charge des systèmes de santé.
Description
Keywords
dysphonia, voice disorders, pathological voice analysis, acoustic analysis, machine learning, signal processing, deep learning, vocal health, automatic diagnosis, non-invasive system., بُحة الصوت، اضطرابات الصوت، تحليل الأصوات المرضية، تحليل الإشارات، تعلم الآلة، التعلم العميق، النظام غير الجراحي، التشخيص الآلي., dysphonie, troubles de la voix, analyse de la voix pathologique, analyse acoustique, apprentissage automatique, traitement du signal, apprentissage profond, santé vocale, diagnostic automatique, système non invasif.