May 29, 2013Open Access

Caracterización y medición del sesgo en datos de secuenciación

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

ANTECEDENTES: Las tecnologías de secuenciación de ADN se desvían de la distribución uniforme ideal de lecturas. Estos sesgos afectan las aplicaciones científicas y médicas. En consecuencia, hemos desarrollado métodos computacionales para descubrir, describir y medir el sesgo. RESULTADOS: Aplicamos estos métodos a las plataformas de secuenciación Illumina, Ion Torrent, Pacific Biosciences y Complete Genomics, utilizando datos humanos y de un conjunto de microbios con composiciones de bases diversas. Como en trabajos previos, las condiciones de construcción de la biblioteca influyen significativamente en el sesgo de secuenciación. Los niveles de cobertura de Pacific Biosciences son los menos sesgados, seguidos por Illumina, aunque todas las tecnologías presentan sesgos en la tasa de error en regiones con alto y bajo contenido de GC y en largas repeticiones de homopolímeros. Las regiones ricas en GC propensas a baja cobertura incluyen varios promotores humanos, por lo que catalogamos 1,000 que fueron excepcionalmente resistentes a la secuenciación. Nuestros resultados indican que combinar datos de dos tecnologías puede reducir el sesgo de cobertura si los sesgos en las tecnologías componentes son complementarios y de magnitud similar. El análisis de datos de Illumina representando una cobertura de 120 veces de una muestra humana bien estudiada revela que el 0.20% del genoma autosómico tuvo una cobertura menor al 10% del promedio genómico. Excluir ubicaciones similares a motivos de sesgo conocidos o probablemente debido a variaciones muestra-referencia dejó solo el 0.045% del genoma autosómico con cobertura pobre inexplicada. CONCLUSIONES: Los ensayos presentados en este artículo ofrecen una vista comprensiva del sesgo de secuenciación, que puede usarse para impulsar mejoras en el laboratorio y monitorear procesos de producción. El desarrollo guiado por estos ensayos debería resultar en ensamblajes genómicos mejorados y mejor cobertura de loci biológicamente importantes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Michael Ross

Carsten Russ

Maura Costello

Journals

Genome biology

Actions

Institutions

Broad Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Caracterización y medición del sesgo en datos de secuenciación

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study