La majorité des recherches sur la reconnaissance des émotions vocales se concentrent sur la classification des émotions discrètes, soit à partir de caractéristiques acoustiques, soit à partir de caractéristiques textuelles. Cette thèse démontre que la représentation dimensionnelle des émotions est également très utile et qu'elle présente des avantages par rapport aux émotions catégorielles. La thèse propose deux systèmes différents qui utilisent tous deux des caractéristiques bimodales (textuelles et acoustiques) afin de reconnaître les émotions discrètes et dimensionnelles. Un système séquentiel qui effectue d'abord une régression dimensionnelle puis une classification et un système parallèle qui effectue une classification et une régression en même temps. En utilisant le coefficient de corrélation de concordance (CCC) pour l'évaluation, on découvre que l'architecture développée par la thèse pour la régression dimensionnelle surpasse dans toutes les dimensions (valence, excitation, dominance) le modèle de régression introduit dans des recherches antérieures à l'institution de Cambridge. En outre, la thèse prouve que le système séquentiel surpasse le système parallèle dans la reconnaissance des émotions discrètes (précision de la classification) et dimensionnelles (CCC).