Die meisten Forschungsarbeiten auf dem Gebiet der Emotionserkennung durch Sprache konzentrieren sich auf die Klassifizierung diskreter Emotionen entweder anhand akustischer Merkmale oder anhand von Textmerkmalen. Diese Arbeit zeigt, dass die dimensionale Darstellung von Emotionen ebenfalls sehr wertvoll ist und ihre Vorteile gegenüber kategorischen Emotionen aufzeigt. Die Arbeit schlägt zwei verschiedene Systeme vor, die beide bimodale Merkmale (Text und Akustik) verwenden, um diskrete und dimensionale Emotionen zu erkennen. Ein sequentielles System, das zuerst eine dimensionale Regression und dann eine Klassifikation durchführt, und ein paralleles System, das gleichzeitig eine Klassifikation und eine Regression durchführt, wobei die Arbeit ein Multitasking-Regressionsmodell entwickelt, das als Kern für beide Systeme dient. Anhand des Konkordanzkorrelationskoeffizienten (CCC) wird festgestellt, dass die im Rahmen der Dissertation entwickelte Architektur für die dimensionale Regression in allen Dimensionen (Valenz, Erregung, Dominanz) besser abschneidet als das Regressionsmodell, das im Rahmen früherer Forschungsarbeiten an der Universität Cambridge eingeführt wurde. Darüber hinaus beweist die Arbeit, dass das sequenzielle System das parallele System sowohl bei der Erkennung von diskreten (Klassifikationsgenauigkeit) als auch von dimensionalen Emotionen (CCC) übertrifft.