A detecção humana a partir de vídeos baseados em drones tem muitas aplicações potenciais, tais como busca de pessoas desaparecidas, vigilância de imigrantes ilegais, e monitorização de infra-estruturas críticas. No entanto, é muito difícil resolver o problema da visão por computador. As dificuldades estão relacionadas com muitos aspectos, incluindo as variações na visão da câmara, as alterações nas iluminações e condições meteorológicas, bem como as variações nos objectos circundantes. Recentemente, os sistemas de visão baseados na aprendizagem profunda têm provado ser um grande sucesso em muitos problemas de detecção de objectos. Por conseguinte, este trabalho visa desenvolver um sistema de visão baseado na aprendizagem profunda que se aplicou ao problema da detecção humana a partir de vídeos captados por uma câmara baseada em drones. Particularmente, o sistema apresentado compreende uma abordagem de detecção que consiste num modelo de aprendizagem profunda mais rápido R-CNN para detectar o humano dentro das imagens capturadas com base em drones. Para avaliar o desempenho do modelo de visão proposto, foram gravados vários vídeos utilizando drone em diferentes locais, a partir de várias vistas e várias condições meteorológicas. Os resultados mostram a eficácia do sistema proposto para a detecção humana em vídeos baseados em zangão.