Os resultados obtidos neste sistema utilizando MFCC+LPCC com SVM são louváveis. A taxa de reconhecimento do sistema é de 81,2% para o IITKGP-SESC, 78,6% para o EmodB e 70% para a base de dados gravada em tempo real. Os MFCCs e LPCCs correspondentes a cada enunciado de cada emoção dos bancos de dados foram computados e sua fusão é usada para extração de características juntamente com seus coeficientes delta e delta duplo. Esses recursos extraídos dos arquivos de treinamento são treinados para o modelo SVM. Posteriormente, os recursos dos arquivos de teste são fornecidos como entrada para o classificador SVM para previsão. Em seguida, a classificação das amostras de teste é feita e a porcentagem de emoções correspondentes e incompatíveis é calculada usando a matriz de confusão. O desempenho do banco de dados gravado em tempo real é limitado por fatores externos que afetam as declarações do locutor, como ruído no sinal e ambiente onde a gravação é realizada. O desempenho pode ser aumentado usando dispositivos de áudio de alta qualidade em ambientes sem ruído. Além disso, um grande número de amostras de treinamento aumenta o desempenho. Para concluir, pode-se afirmar com firmeza que, apesar de certas limitações, este sistema proporciona uma eficiência e precisão apreciáveis.