Ce travail de recherche cible l'extraction et la reconnaissance des actions humaines depuis des flux continus multimodaux et plus précisément ceux de la langue des signes depuis le capteur Kinect. Les principales contributions sont:(1) La proposition de descripteurs en échelles locales en Contextes Augmentés de Jointures et en Histogrammes de Déplacements, en plus du raffinement des représentations en vecteurs de Fisher sous échelles globales.(2) La proposition de deux approches de Segmentation Temporelle des actions. Une heuristique optimisée à l'extraction temps-réel. L'autre est par apprentissage de caractéristiques et groupement des labels obtenus.(3) La troisième contribution, la principale, concerne la proposition d'un schéma de fusion hybride combinant la concaténation des caractéristiques multimodales avec la pondération des scores de décisions issus de modèles SVM multi-résolutions. La robustesse de l'approche a été prouvée sur les benchmark publiques CGC-2014 et CAD-60. Une base de données baptisée KiFaEx dédiée aux expressions faciales RGB-D depuis Kinect a été aussi proposée.