A Aprendizagem por Reforço (AR) tem se mostrado um método bastante eficiente quando se trata da resolução de problemas onde é necessário aprender um comportamento de atuação a partir de um ambiente desconhecido. Existem várias aplicações desse método nas mais diferentes áreas de pesquisa, uma dessas aplicações tem chamado muito a atenção de pesquisadores da área de computação, que é a capacidade criar agentes autônomos utilizando a AR. Existem diversos algoritmos de AR que podem ser aplicados a tarefas de aprendizagem, tendo como objetivo determinar uma política ótima de atuação para um agente. Este trabalho se propõe a realizar um estudo e implementação dos algoritmos de AR, Q-learning e Sarsa, aplicado a problemas de navegação autônoma. Esses algoritmos foram analisados quanto à capacidade de convergência para uma política de atuação ótima e seus desempenhos na aplicação em um modelo de navegação autônoma. Para simulação do ambiente desenvolvido e implementação dos algoritmos de AR foi utilizado o software SCILAB.