Key points are not available for this paper at this time.
Die jüngste Revolution im Bereich der DNA-Sequenzierung wurde durch die Entwicklung automatisierter Sequenzierer eingeleitet, die in der Lage sind, Giga-Basenpaar-Datensätze schnell und kostengünstig zu erzeugen. Anwendungen dieser Technologien scheinen aufgrund der Kürze der erzeugten Reads auf Resequenzierung und Transkriptentdeckung beschränkt zu sein. Um das Anwendungsfeld auf die de novo Sequenzierung auszudehnen, entwickelten wir den SHARCGS-Algorithmus zur Assemblierung von Kurz-Lese-(25–40-mer)-Daten mit hoher Genauigkeit und Geschwindigkeit. Die Effizienz von SHARCGS wurde an BAC-Insertionsfragmenten von drei eukaryotischen Spezies, an zwei Hefe-Chromosomen und an zwei bakteriellen Genomen (Haemophilus influenzae, Escherichia coli) getestet. Wir zeigen, dass 30-mer-basierte BAC-Assemblies N50-Größen von >20 kbp für Drosophila und Arabidopsis sowie >4 kbp für den Menschen in Simulationen erreichen, bei denen fehlende Reads und falsche Basenaufrufe berücksichtigt wurden. Wir assemblieren 949.974 Contigs mit einer Länge >50 bp, und nur ein einziger Contig konnte nicht fehlerfrei gegen die Referenzsequenzen ausgerichtet werden. Wir erzeugten 36-mer-Reads für das Genom von Helicobacter acinonychis auf dem Illumina 1G-Sequenzierungsgerät und assemblieren 937 Contigs, die 98 % des Genoms mit einer N50-Größe von 3,7 kbp abdecken. Mit Ausnahme von fünf Contigs, die sich in 1–4 Positionen relativ zur Referenzsequenz unterscheiden, stimmten alle Contigs fehlerfrei mit dem Genom überein. Somit ist SHARCGS ein geeignetes Werkzeug, um neuartige Sequenzierungstechnologien voll auszuschöpfen, indem es Sequenzcontigs de novo mit hoher Zuverlässigkeit assemblieren kann und bestehende Assemblierungsalgorithmen hinsichtlich Geschwindigkeit und Genauigkeit übertrifft.
Dohm et al. (Mon,) untersuchten diese Fragestellung.