A previsão correta do início de tradução em sequências de mRNA é uma atividade importante para a anotação genômica. No entanto, realizar uma previsão correta nem sempre é uma tarefa trivial e, dessa forma, pode ser modelada como um problema de classificação entre sequências positivas (codificadoras de proteínas) e negativas (não codificadoras). Por ser um problema desbalanceado, já que cada molécula de mRNA possui um único início de tradução e vários outros não são iniciadores, esse trabalho focou em métodos de balanceamento que resolve o problema proposto com eficácia e eficiência. Para isso, é proposto um novo método de balanceamento do tipo undersampling baseado em Clusterização, M-Clus, além de uma nova metodologia que adiciona características às sequências e que melhora o desempenho do classificador a partir da inclusão do conhecimento obtido pelo modelo. A fim de analisar o desempenho da metodologia proposta, utiliza-se como classificador SVM (Support Vector Machines).
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.