L'apprendimento profondo sta avendo luogo, specialmente con la rapida crescita e la disponibilità di grandi database e i recenti miglioramenti nelle unità di elaborazione grafica (GPU). L'obiettivo principale di questa ricerca è quello di applicare algoritmi di apprendimento profondo, come le reti neurali convoluzionali (CNN) e le architetture profonde, in particolare il modello profondo VGG-16 per la categorizzazione e la localizzazione dei veicoli nelle scene stradali. In questa tesi, mostreremo che attraverso una parametrizzazione ottimizzata e una semplice modifica algoritmica, possiamo migliorare, anche relativamente, la robustezza di una particolare rete Faster R-CNN nel rilevamento dei veicoli e ottenere risultati migliori basati su vari database (PASCAL VOC 2007, PASCAL VOC 2012, MIT Traffic, CUHK Square e Logiroad).