Emotion recognition in Arabic speech signal

Dalal, Djeridi; Rayhana, Kedidi

Please use this identifier to cite or link to this item: https://dspace.univ-ouargla.dz/jspui/handle/123456789/28896

Title:	Emotion recognition in Arabic speech signal
Authors:	Mourad, Belhadj Dalal, Djeridi Rayhana, Kedidi
Keywords:	Arabic speech signal, speech emotion recognition, low-level descriptors(LLDs), Mel-frequency cepstral coefficient (MFCC), Machine learning. i إشارة الكلام باللغة العربية، التعرف على عاطفة الكلام،امعامل تردد الميل،التعلم الآلي.واصفات منخفضة المستوى، signal de parole Arabe, reconnaissance des émotions vocales, descripteurs de bas niveau (DBN), Coefficient Cepstral de Fréquence Mel (CCFM), Apprentissage automatique iii
Issue Date:	2020
Publisher:	UNIVERSITY OF KASDI MERBAH OUARGLA
Abstract:	Recognizing emotions has become an area of great interest to researchers in the past few years. Emotion recognition is a multidisciplinary area, among which is the recognition of emotions from speech. Recognizing speech emotion is a significant endeavor in human speech processing and developing human-computer interaction. This work presents the performance of machine learning approaches for the recognition of emotions from an Arabic speech signal. Initially, we used the Lebanese audio database Arabic-Natural-Audio-Dataset (ANAD), which contains 384 records with 505 happy, 137 surprises, and 741 angry units. Next, we use the OpenSMILE toolkit to extract the necessary speech features with two methods, Low-Level Descriptors (LLDs) with 988 features, and Mel-frequency cepstral coefficient (MFCC) with 39 features. Also, we applied features selection on LLDs and MFCC using Learner Based Feature Selection. We suggested Rough set theory for select features in order to improve results. Then, for classifying the emotions into different classes, Multilayer Perceptron (MLP), Support Vector Machine (SVM), K-Nearest Neighbors (KNN), and Logistic Regression (LR) are employed. Results showed that MLP outperformed other models when applied on LLDs and MFCC features with accuracy 87%, 83% respectively. La reconnaissance des émotions est devenue un domaine de grand intérêt pour les chercheurs au cours des dernières années. La reconnaissance des émotions est un domaine multidisciplinaire, parmi lesquels la reconnaissance des émotions à partir de la parole. Reconnaître l’émotion de la parole est une entreprise importante dans le traitement de la parole humaine et le développement de l’interaction homme-machine. Ce travail présente les performances d’approches d’apprentissage automatique pour la reconnaissance des émotions à partir d’un signal de parole arabe. Au départ, nous avons utilisé la base de données audio libanaise Base-de-Donnée-Audio-Naturel-Arabe (BANA), qui contient 384 enregistrements avec 505 joyeux, 137 surprises et 741 unités en colère. Ensuite, nous utilisons la boîte à outils OpenSMILE pour extraire les caractéristiques vocales nécessaires avec deux méthodes, des Descripteurs de Bas Niveau (DBN) avec 988 caractéristiques et le Coefficient Cepstral de Fréquence Mel (CCFM) avec 39 caractéristiques. En outre, nous avons appliqué la sélection des fonctionnalités sur les DBN et CCFM à l’aide de Sélection de fonctionnalités basée sur l’apprenant. Nous avons suggéré la théorie des ensembles approximatifs pour certaines caractéristiques afin d’améliorer les résultats. Ensuite, pour classer les émotions en différentes classes, le Perceptron Multicouche (PMC), la Machine à Vecteur de Support (MVS), les KVoisins les plus Proches(KVP) et la Régression Logistique (RL) sont utilisés. Les résultats ont montré que PMC surpassait les autres modèles lorsqu’il était appliqué sur les fonctionnalités DBN et CCFM avec une précision de 87%, 83% respectivement.
URI:	http://dspace.univ-ouargla.dz/jspui/handle/123456789/28896
Appears in Collections:	Département d'informatique et technologie de l'information - Master

Files in This Item:

File	Description	Size	Format
Djeridi-.Kedidi_compressed.pdf		688,67 kB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets