Esta tese apresenta um método computacional para detectar e eliminar contigs NGS redundantes gerados por montadores de novo. A abordagem usa duas técnicas baseadas em Hashing, um Bloom Filter para eliminar contigs duplicados e um hash sensível à localidade (LSH) para remover contigs similares. Como um grande número de contigs é gerado por diferentes montadores, essas abordagens requerem recursos computacionais e humanos consideráveis. A redução de redundância facilita a análise posterior dos dados e reduz o tempo necessário para finalizar e curar montagens genômicas. A montagem híbrida do dataset GAGE-B (8 bactérias divididas em 12 conjuntos sequenciados em Illumina HiSeq e MiSeq) foi realizada com o montador SPAdes (De Bruijn Graph) e o montador Fermi (OLC). O pipeline foi aplicado aos contigs resultantes e o desempenho comparado com outras ferramentas semelhantes, como HS-BLASTN, Simplifier e CD-HIT. O aplicativo proposto pode gerar resultados complementares e ajuda a unir esses resultados, tornando a montagem mais precisa.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.