SENTIMENT ANALYSIS USING DEEP LEARNING
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Today, credibility is one of the most important principles that a person needs to satisfy the necessities of life, make profits and gain satisfaction from those around him. To achieve this goal, we have implemented a project called “Sentiment Analysis”. The latter is a very important tool for establishing transparency with customers in all sectors: health, education, politics, commerce, etc. Moreover, it is one of the newest and most prominent works of our time.
In our work, we focused on the Jumia site, which is the largest e-commerce site in North Africa. We therefore created a database containing user reviews in our Algerian dialect, classified into three categories: positive, negative and neutral. This is not enough to achieve the desired results, which is why we have developed an extensive lexicon containing terms that we use daily in our dialect. We also applied augmentation methods to diversify the database, translating the reviews into the two most commonly used foreign languages today, namely English and French, as well as many other techniques to produce a database rich in diversity and culture.
The next phase is very sensitive because we will apply a deep learning classifier on different and unusual data for it. To obtain satisfactory results, we searched for and tested parameters adapted to the data. We applied three classifiers: SVM, LSTM and BERT. BERT is considered one of the newest and most popular classifiers in the field of natural language processing.
Finally, thanks to the integration of certain techniques, we have obtained very good results in the field of natural language processing, but in a somewhat different way, by integrating our Maghreb dialects into this modern science.
--------------------------------------------------------------------------------------
اليوم، المصداقية هي واحدة من أهم المبادئ التي يحتاجها الشخص لتلبية متطلبات الحياة، تحقيق الأرباح، والحصول على رضا المحيطين به. لتحقيق هذا الهدف، قمنا بتنفيذ مشروع بعنوان تحليل المشاعر. يُعتبر هذا الأخير أداة هامة جدًا لإرساء الشفافية مع العملاء في جميع القطاعات منها الصحة، التعليم، السياسة، التجارة... إلخ. بالإضافة إلى ذلك، يُعد هذا العمل من بين الأبحاث الأحدث والأكثر بروزًا في عصرنا الحالي.
في عملنا، ركزنا على موقع جوميا، وهو أكبر موقع للتجارة الإلكترونية في شمال أفريقيا. لذلك، قمنا بإنشاء قاعدة بيانات تحتوي على آراء المستخدمين باللهجة الجزائرية الخاصة بنا، مصنفة إلى ثلاث فئات منها إيجابية، سلبية ومحايدة. هذا لا يكفي لتحقيق النتائج المرجوة، لذلك قمنا بتطوير معجم واسع يحتوي على المصطلحات التي نستخدمها يوميًا في لهجتنا. كما قمنا بتطبيق أساليب لزيادة تنوع قاعدة البيانات، بترجمة الآراء إلى اللغتين الأجنبيتين الأكثر استخدامًا اليوم، وهما الإنجليزية والفرنسية، بالإضافة إلى العديد من التقنيات الأخرى لإنتاج قاعدة بيانات غنية بالتنوع والثقافة.
المرحلة التالية حساسة جدًا لأننا سنطبق مصنف التعلم العميق على بيانات مختلفة وغير مألوفة له. للحصول على نتائج مرضية، قمنا بالبحث واختبار المعلمات المناسبة للبيانات. قمنا بتطبيق ثلاثة مصنفات منها LSTM، CNN، وLLM. يُعتبر LLM واحدًا من أحدث وأوسع المصنفات انتشارًا في مجال معالجة اللغة الطبيعية.
وفي الأخير، بفضل دمج بعض التقنيات، حصلنا على نتائج ممتازة في مجال معالجة اللغة الطبيعية، ولكن بطريقة مختلفة إلى حد ما، حيث دمجنا لهجاتنا المغاربية في هذا العلم الحديث.
-------------------------------------------------------------------------------------
Aujourd’hui, la crédibilité est l’un des principes les plus importants dont une personne a besoin pour satisfaire les nécessités de la vie, réaliser des profits et obtenir la satisfaction de son entourage. Pour atteindre cet objectif, nous avons mis en œuvre un projet appelé « Sentiment Analysis ». Ce dernier est un outil très important pour établir la transparence avec les clients dans tous les secteurs : santé, éducation, politique, commerce, etc. De plus, c’est l’un des ouvrages les plus récents et les plus marquants de notre époque.
Dans notre travail, nous nous sommes concentrés sur le site Jumia, qui est le plus grand site
e-commerce d’Afrique du Nord. Nous avons donc créé une base de données regroupant les avis des utilisateurs dans notre dialecte algérien, classés en trois catégories : positifs, négatifs et neutres. Cela ne suffit pas pour obtenir les résultats souhaités, c’est pourquoi nous avons développé un lexique complet contenant les termes que nous utilisons quotidiennement dans notre dialecte. Nous avons également appliqué des méthodes d’augmentation pour diversifier la base de données, en traduisant les revues dans les deux langues étrangères les plus couramment utilisées aujourd’hui, à savoir l’anglais et le français, ainsi que de nombreuses autres techniques pour produire une base de données riche en diversité et en culture.
La phase suivante est très sensible car nous appliquerons un classificateur d’apprentissage profond sur des données différentes et inhabituelles. Pour obtenir des résultats satisfaisants, nous avons recherché et testé des paramètres adaptés aux données. Nous avons appliqué trois classificateurs : SVM, LSTM et BERT. BERT est considéré comme l’un des classificateurs les plus récents et les plus populaires dans le domaine du traitement du langage naturel.
Enfin, grâce à l’intégration de certaines techniques, nous avons obtenu de très bons résultats dans le domaine du traitement du langage naturel, mais de manière un peu différente, en intégrant nos dialectes maghrébins à cette science moderne.