In dieser Arbeit wird eine rechnerische Methode vorgestellt, um redundante NGS-Kontigs, die durch Assembler erzeugt wurden, wieder zu erkennen und zu eliminieren. Der Ansatz verwendet zwei Hashing-basierte Techniken, einen Bloom-Filter zur Eliminierung doppelter Contigs und einen ortsabhängigen Hash (LSH) zur Entfernung ähnlicher Contigs. Da eine große Anzahl von Contigs von verschiedenen Assemblern erzeugt wird, erfordern diese Ansätze erhebliche rechnerische und personelle Ressourcen. Die Redundanzreduzierung erleichtert die weitere Datenanalyse und verkürzt die Zeit, die für die Fertigstellung und Heilung genomischer Baugruppen benötigt wird. Die Hybridanordnung des GAGE-B-Datensatzes (8 Bakterien, aufgeteilt in 12 sequenzierte Anordnungen in Illumina HiSeq und MiSeq) wurde mit dem Assembler SPAdes (De Bruijn Graph) und dem Assembler Fermi (OLC) durchgeführt. Die Pipeline wurde auf die resultierenden Contigs und die Leistung im Vergleich zu anderen ähnlichen Tools wie HS-BLASTN, Simplifier und CD-HIT angewendet. Der vorgeschlagene Antrag kann komplementäre Ergebnisse hervorbringen und trägt dazu bei, diese Ergebnisse zu vereinen und die Versammlung präziser zu gestalten.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.
Hinweis: Dieser Artikel kann nur an eine deutsche Lieferadresse ausgeliefert werden.