As apresentações controladas por gestos das mãos utilizando a aprendizagem automática (ML) implicam a utilização de um sistema baseado na visão por computador para interpretar os movimentos e gestos das mãos como comandos para controlar as apresentações. Reúna um conjunto de dados de imagens ou vídeos de gestos das mãos, capturando vários movimentos e gestos das mãos que correspondam a diferentes comandos de apresentação (por exemplo, diapositivo seguinte, diapositivo anterior, aumentar e diminuir o zoom). Limpar e pré-processar os dados recolhidos redimensionando, normalizando e aumentando as imagens ou vídeos para melhorar a robustez do modelo. Utilizar técnicas de aprendizagem automática, muitas vezes empregando Redes Neuronais Convolucionais (CNNs) ou outras arquitecturas de aprendizagem profunda, para treinar um modelo no conjunto de dados recolhido. Este modelo aprende a reconhecer e classificar diferentes gestos com as mãos. Uma vez treinado, o modelo é capaz de reconhecer gestos de mão específicos em tempo real. Consegue identificar gestos como a palma da mão aberta para o diapositivo seguinte, o punho fechado para o diapositivo anterior, a pinça para aumentar o zoom, a abertura dos dedos para diminuir o zoom, etc.