Le presentazioni controllate dai gesti delle mani mediante l'apprendimento automatico (ML) prevedono l'uso di un sistema basato sulla computer vision per interpretare i movimenti e i gesti delle mani come comandi per controllare le presentazioni. Raccogliere un set di immagini o video di gesti delle mani, catturando vari movimenti e gesti delle mani che corrispondono a diversi comandi di presentazione (ad esempio, diapositiva successiva, diapositiva precedente, zoom avanti, zoom indietro). Pulire e preelaborare i dati raccolti ridimensionando, normalizzando e aumentando le immagini o i video per migliorare la robustezza del modello. Utilizzare tecniche di apprendimento automatico, spesso utilizzando reti neurali convoluzionali (CNN) o altre architetture di apprendimento profondo, per addestrare un modello sul set di dati raccolti. Questo modello impara a riconoscere e classificare i diversi gesti delle mani. Una volta addestrato, il modello è in grado di riconoscere gesti specifici della mano in tempo reale. È in grado di identificare gesti come il palmo aperto per la diapositiva successiva, il pugno chiuso per la diapositiva precedente, il pizzico per lo zoom in avanti, l'allargamento delle dita per lo zoom indietro, ecc.