Background modeling using deep learning
Date
2024
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Background subtraction plays a pivotal role in computer vision applications, particularly
in video surveillance, where accurate detection of moving objects in variable environmental
conditions is paramount. This report presents a robust background subtraction system
using deep learning.
The system begins with a pre-processing stage, where the video frames are standardized
and the noise is reduced through bilateral filtering.
Ground truth images also undergo the similar pre-processing steps in order to align them
with the original data.
In the processing stage, we have used a modified U-net architecture as tools for pixel
segmentation. The modification introduced on the U-net architecture, including an additional
convolution layer in the encoder part, which enhance feature extraction and improve
model performance, particularly for larger and more complex images.
After the processing step, binary images are generated. The post-processing steps involve
morphological operations such as dilation and erosion to refine the binary images, correcting
false detections and enhancing accuracy.
The test of our model on public dataset, demonstrates the performance of our proposition.
---------------------------------------------------------------------------------
La soustraction d’arrière-plan joue un rôle crucial dans les applications de vision par ordinateur,
en particulier dans la vidéosurveillance, où la détection précise des objets en
mouvement dans des conditions environnementales variables est primordiale. Ce rapport
présente une méthode de soustraction de fond robuste pour les systèmes de vidéosurveillance.
Le système commence par une étape de prétraitement, où les images du vidéo sont standardisées
et le bruit est réduit par le filtre bilatéral. Les images de vérité de terrain
subissent également des étapes de prétraitement similaires pour les aligner avec les données
d’origine.
Notre modèle proposé utilisait une architecture U-net modifiée comme outils pour la segmentation
des pixels. La modification introduite sur l’architecture U-net, y compris une
couche convolutive supplémentaire dans la partie encodeur, qui améliore l’extraction des
caractéristiques et les performances du modèle, en particulier pour les images plus grandes
et plus complexes.
Après l’étape de traitement, des images binaires sont générées, distinguant les pixels
d’arrière-plan et d’avant-plan. Les étapes de post-traitement impliquent des opérations
morphologiques telles que la dilatation et l’érosion pour affiner les images binaires, corriger
les fausses détections et améliorer la précision.
Le test de notre modèle sur jeu de données publiques, démontre la performance de notre
proposition.
---------------------------------------------------------------------------
تلعب عملية طرح الخلفية دورًا حاسمًا في تطبيقات رؤية الحاسوب، خاصة في مجال المراقبة بالفيديو، حيث يكون التعرف الدقيق على الأجسام المتحركة في ظروف بيئية متغيرة أمرًا أساسيًا. يقدم هذا التقرير طريقة قوية لطرح الخلفية لأنظمة المراقبة بالفيديو.
يبدأ النظام بمرحلة معالجة مسبقة، حيث تُقيس الصور الفيديوية وتُقلل الضوضاء باستخدام فلتر ثنائي المعالم. تخضع صور الحقيقة الميدانية أيضًا لخطوات معالجة مسبقة مماثلة لمزامنتها مع البيانات الأصلية.
استخدمت نموذجنا المقترح بنية U-netمعدلة كأداة لتقسيم البكسلات. تتضمن التعديلات المُجراة على بنية U-netإضافة طبقة تحويلية إضافية في جزء المُشفر، مما يعزز استخراج السمات وأداء النموذج، خاصة للصور الأكبر حجمًا والأكثر تعقيدًا.
بعد مرحلة المعالجة، يتم إنشاء صور ثنائية تمييز بكسلات الخلفية والأمامية. تشمل خطوات المعالجة اللاحقة عمليات مورفولوجية مثل التوسيع والتآكل لتنقية الصور الثنائية، وتصحيح الكشفات الزائفة وتحسين الدقة.
اختبار نموذجنا على مجموعة بيانات عامة يبرهن على أداء اقتراحنا