I modelli di processi decisionali di Markov (MDP) sono ampiamente utilizzati per modellare problemi decisionali in molti campi di ricerca. I MDP possono essere facilmente progettati attraverso la modellazione e la simulazione (M&S) utilizzando il formalismo Discrete Event System Specification (DEVS) grazie ai suoi aspetti modulari e gerarchici, che migliorano la spiegabilità dei modelli. In particolare, la separazione tra l'agente e i componenti dell'ambiente coinvolti nel tradizionale algoritmo di apprendimento per rinforzo (RL), come il Q-Learning, è chiaramente formalizzata per migliorare l'osservabilità e prevedere l'integrazione dei componenti dell'intelligenza artificiale nel processo decisionale. Il modello DEVS da noi proposto migliora anche la fiducia dei decisori, attenuando il rischio di delega alle macchine nei processi decisionali. L'obiettivo principale di questo lavoro è fornire la possibilità di progettare un sistema markoviano con un formalismo di modellazione e simulazione per ottimizzare un processo decisionale con una maggiore spiegabilità attraverso la simulazione. Inoltre, il lavoro prevede un'indagine basata sulla gestione dei processi finanziari, la sua specificazione come sistema RL basato su MDP e la sua M&S con il formalismo DEVS.