Please use this identifier to cite or link to this item:
Title: Algerian Dialect text clustering based on Emotion detection
Authors: MEZATI, Mesoud
REHAIEM, Elmountassir
DIDA, Marouane
Keywords: NLP
Emotion Detection
Machine Learning
Algerian Dialect
Text clustring
Issue Date: 2022
Abstract: Currently, social media is considered as a big space to express opinions and share thoughts, Facebook and twitter are a rich source of information that plays an important role in the Algerian society. Despite the existence of many studies that have focused on supervised text classification for the Arabic language. the lack of labelled datasets interest in the Algerian dialect poses a challenge. The purpose of our study is to build a model for text clustering in the context of emotion detection in Arabic text . For the objective of our approach tweets that are used as text data were extracted from twitter via twitter API for the Algeria region. Using an unsupervised Machine Learning (ML) technique for natural language processing (NLP), this work is divided into two main phases, the first is the preprocessing in which the raw data text is cleaned to feed the second phase which is treatment, in this phase, different clustering algorithms are being applied on the cleaned text. After this work, the obtained result is a dataset classified according to the Ekman emotional model into six (06) categories (Happiness, Anger, Fear, Surprise, Sadness, Disgust). This dataset can be helpful to make trained models for Emotion Detection on dialectical Algerian Tweets.
Actuellement, les médias sociaux sont considérés comme un grand espace pour exprimer des opinions et partager des pensées, Facebook et Twitter sont une riche source d’information qui joue un rôle important dans la société algérienne. Malgré l’existence de nombreuses études qui se sont concentrées sur la classification supervisée de textes pour la langue arabe. le manque d’intérêt des ensembles de données étiquetés pour le dialecte algérien pose un défi. Le but de notre étude est de construire un modèle de clustering de textes dans le contexte de la détection d’émotions dans un texte arabe. Pour l’objectif de notre approche, les tweets utilisés comme données textuelles ont été extraits de Twitter via l’API Twitter pour la région Algérie. Utilisant une technique de Machine Learning (ML) non supervisé pour le traitement du langage naturel(NLP), ce travail est divisé en deux phases principales, la première est le prétraitement dans lequel le texte brut des données est nettoyé pour alimenter la deuxième phase qui est le traitement, dans ce phase, différents algorithmes de clustering sont appliqués sur le texte nettoyé. A l’issue de ce travail, le résultat obtenu est une dataset classé selon le modèle émotionnel d’Ekman en six (06) catégories (Bonheur, Colère, Peur, Surprise, Tristesse, Dégoût). Cet ensemble de données peut être utile pour créer des modèles entraînés pour la détection d’émotions sur les tweets algériens dialectiques.
Description: Fundamental computing
Appears in Collections:Département d'informatique et technologie de l'information - Master

Files in This Item:
File Description SizeFormat 
REHAIEM _ DIDA.pdf1,65 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.