Les résultats obtenus dans ce système utilisant MFCC + LPCC avec SVM sont louables. Le taux de reconnaissance du système est de 81,2% pour IITKGP-SESC, 78,6% pour EmodB et 70% pour la base de données enregistrée en temps réel. Les MFCC et LPCC correspondant à chaque énoncé de chaque émotion des bases de données ont été calculés et leur fusion est utilisée pour l'extraction de caractéristiques ainsi que leurs coefficients delta et double-delta. Ces fonctionnalités extraites des fichiers de formation sont entraînées au modèle SVM. Plus tard, les caractéristiques des fichiers de test sont fournies en entrée au classificateur SVM à des fins de prédiction. Ensuite, la classification des échantillons de test est effectuée et le pourcentage d'émotions correspondantes et non correspondantes est calculé à l'aide d'une matrice de confusion. Les performances de la base de données enregistrée en temps réel sont limitées par les facteurs externes qui affectent les déclarations du locuteur, tels que le bruit dans le signal et l'environnement dans lequel l'enregistrement est effectué. Les performances peuvent être augmentées en utilisant des appareils audio de haute qualité dans un environnement sans bruit. Un grand nombre d'échantillons d'entraînement s'avère également augmenter les performances. En conclusion, on peut affirmer avec certitude que malgré certaines limites, ce système offre une efficacité et une précision appréciables.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.