Le travail effectué s'insère dans le cadre de la conversion automatique de la voix. La problématique est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Parmi les applications, on peut noter : l'apprentissage des langues étrangères, le contrôle biométrique, la correction des voix pathologiques et le divertissement. Plusieurs techniques sont utilisées tels que les HMMs (Hidden Markov Model), les réseaux de neurones ou les GMMs (Gaussian Mixture Model). Un aspect de ce travail explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion par GMM. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur les GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de neurones (RBF, Radial Basis Functions). Une partie du travail est consacrée à l'alignement des données utilisées pour apprendre les modèles de voix et les transformations. En dernier, la prise en compte de l'aspect phonétique s'avère une solution efficace pour l'amélioration des systèmes de conversion de voix.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.