Los resultados obtenidos en este sistema utilizando MFCC+LPCC con SVM son encomiables. La tasa de reconocimiento del sistema es del 81,2% para IITKGP-SESC, del 78,6% para EmodB y del 70% para la base de datos registrada en tiempo real. Se han calculado los MFCC y LPCC correspondientes a cada expresión de cada emoción de las bases de datos y su fusión se utiliza para la extracción de características junto con sus coeficientes delta y doble delta. Estas características extraídas de los archivos de entrenamiento se entrenan según el modelo SVM. Posteriormente, las características de los archivos de prueba se proporcionan como entrada al clasificador SVM para su predicción. Luego se realiza la clasificación de las muestras de prueba y se calcula el porcentaje de emociones coincidentes y no coincidentes utilizando una matriz de confusión. El rendimiento de la base de datos grabada en tiempo real está limitado por factores externos que afectan las expresiones del hablante, como el ruido en la señal y el entorno donde se realiza la grabación. El rendimiento se puede aumentar utilizando dispositivos de audio de alta calidad en un entorno libre de ruido. Además, una gran cantidad de muestras de entrenamiento aumentan el rendimiento. En conclusión, se puede afirmar firmemente que, a pesar de ciertas limitaciones, este sistema proporciona una eficiencia y precisión apreciables.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.