La diarisation du locuteur est le processus qui détecte les locuteurs actifs et regroupe les signaux vocaux qui ont été émis par le même locuteur. En général, on peut trouver deux applications principales pour la diarisation du locuteur. Les systèmes de reconnaissance automatique de la parole utilisent les groupes homogènes de locuteurs pour adapter les modèles acoustiques en fonction du locuteur et donc augmenter les performances de reconnaissance. Les systèmes d'indexation du locuteur et de transcription riche utilisent également la sortie de diarisation du locuteur comme une des informations extraites d'un enregistrement, ce qui permet son indexation automatique et d'autres traitements ultérieurs. Dans cette étude, une application de diarisation du locuteur est développée - en utilisant des enregistrements binauraux multipartites de la parole - pour suivre l'activité du locuteur sur la base d'indices de différence de temps interauraux (ITD). Ces indices, pour une trame de signal vocal donnée, sont calculés en utilisant le filtrage gammatone et la technique de corrélation croisée. Leurs valeurs sont utilisées pour déterminer quel locuteur de l'enregistrement produit le fragment de parole considéré. Cette étude a été supervisée par le Dr Jon Barker, et a été défendue pour remplir les exigences du diplôme de Master en informatique avancée, Université de Sheffield, Royaume-Uni, 2007.
Bitte wählen Sie Ihr Anliegen aus.
Rechnungen
Retourenschein anfordern
Bestellstatus
Storno