Il riconoscimento del parlato usando la rete neurale di convoluzione, è usato per riconoscere le parole e digitalizzarle e analizzare il suono. Addestra un modello di apprendimento profondo che rileva la presenza di comandi vocali nell'audio, implementato utilizzando MATLAB. Utilizza una rete neurale di convoluzione per addestrare un modello. Il modello è stato addestrato per i comandi e il rumore di fondo. Il modello addestrato ha ottenuto una precisione del 96,34% durante il test dei dati. Definisce il livello per l'elaborazione audio e il livello di identificazione in Hz e costruisce un visualizzatore di interfaccia audio che può interpretare l'audio dal microfono. Quando parliamo di comandi lo rileva e lo visualizza, mentre se parliamo di cose diverse dai comandi lo mostra sconosciuto. Quando non parliamo nulla, rileva il rumore di fondo.