Os genes Housekeeping (HKG) ou genes de referência são necessários para a manutenção das funções celulares basais, as quais são essenciais para a sobrevivências das células. Os métodos de aprendizado de máquinas são aplicados em diferentes áreas dentro da genética e genômica, permitindo a interpretação de grandes conjuntos de dados, como aqueles relacionados à expressão gênica. Uma das técnicas mais usadas são os algoritmos de agrupamento, técnica que permite definir grupos de genes com perfis de expressão similares, o que possibilita o estudo quanto à função e à interação dos genes. A corynebacterium pseudotuberculosis, um patógeno intracelular facultativo, que infecta principalmente ovelhas, cabras, equinos, entre outros ocasionando a doença linfadenite caseosa. Neste trabalho, é apresentada uma nova metodologia para a identificação de genes Housekeeping in-silico através de técnicas de aprendizado de máquina e dados de expressão genica de RNA-seq. Para a aplicação desta nova abordagem, foram utilizadas técnicas não supervisionadas de agrupamentose métricas estatísticas de avaliação e distância para o processamento e análises dos dados genômicos.