La maggior parte delle ricerche sul riconoscimento delle emozioni vocali si concentra sulla classificazione di emozioni discrete a partire da caratteristiche acustiche o testuali. Questa tesi dimostra che anche la rappresentazione dimensionale delle emozioni è molto valida e mostra i suoi vantaggi rispetto alle emozioni categoriali. La tesi propone due diversi sistemi che utilizzano entrambi caratteristiche bimodali (testuali e acustiche) per riconoscere emozioni discrete e dimensionali. Un sistema sequenziale che esegue prima la regressione dimensionale e poi la classificazione e un sistema parallelo che esegue la classificazione e la regressione allo stesso tempo. La tesi sviluppa un modello di regressione multi-task che serve come nucleo per entrambi i sistemi. Utilizzando il Concordance Correlation Coefficient (CCC) per la valutazione, si scopre che l'architettura sviluppata dalla tesi per la regressione dimensionale supera in tutte le dimensioni (valenza, eccitazione, dominanza) il modello di regressione introdotto in una precedente ricerca dell'istituto di Cambridge. Inoltre, la tesi dimostra che il sistema sequenziale supera il sistema parallelo nel riconoscimento di emozioni sia discrete (accuratezza di classificazione) sia dimensionali (CCC).