O processamento de linguagem natural (Natural Language Processing - NLP) é uma subárea da Inteligência Artificial que visa permitir que os computadores processem o texto em linguagem natural de forma semelhante a humana. Este trabalho propõe uma abordagem de NLP semântica utilizada para caracterização de informações relevantes às atividades do compliance. Neste contexto é proposto um modelo combinando duas técnicas de modelagem de tópicos: a Análise semântica latente (Latent Semantic Analysis ¿ LSA) e a Alocação de Tópicos Latentes (Latent Dirichlet Allocation ¿ LDA), sendo o primeiro utilizado para auxiliar no processo de redução de dimensionalidade, enquanto o segundo foi selecionado para identificar o quantitativo de temas relevantes abordados nos dados processados. Os resultados avaliados foram obtidos através da submissão de três bases ao modelo: Base de relatórios de Auditoria emitidos pela Secretaria da Controladoria-Geral de Pernambuco entre os anos 2010 a 2019; Base de acórdão emitidos pelo tribunal de contas da União em 2019 e Base de Leis Europeias entre 1952 a 1990. Avaliamos o desempenho de três métodos de aprendizagem de máquina (K-means, LSA e LDA).