L'apprentissage par renforcement, est un type d'apprentissage automatique qui est souvent utilisé dans le domaine de la robotique. Il vise à déterminer une loi de commande pour un robot mobile dans un environnement intérieur connu. Ce genre de technique s'applique lorsqu'on suppose que la seule information sur la qualité des actions effectuées par le robot mobile, est un signal scalaire qui présente une récompense ou une punition. La procédure d'apprentissage vise à améliorer le choix des actions afin de maximiser les récompenses. L'un des plus algorithmes utilisés pour la résolution de ce problème d'apprentissage est l'algorithme Q-Learning qui est basé sur la Q-Fonction. Et pour assurer la génération de cette dernière fonction et le bon fonctionnement du système d'apprentissage on utilise un réseau de neurones artificiels car, les états des environnements où évolue un robot mobile ont des grands espaces. L'action effectuée par le robot mobile dans son environnement est assurée par l'utilisation d'une fonction de sélection. Cette action est évaluée par un signal scalaire qui vaut -1, 0 et 1