Biblioteca122.739 documentos en línea

Artículo

Spaced Seed Data Structures for De Novo AssemblyEstructuras de datos espaciadas para el ensamblaje de novo

Resumen

El ensamblaje de novo del genoma de una especie es esencial en ausencia de una secuencia genómica de referencia. Muchos algoritmos de ensamblaje escalables utilizan el paradigma del grafo de Bruijn (DBG) para reconstruir genomas, en el que se obtiene una tabla de subsecuencias de cierta longitud a partir de las lecturas y se analizan sus solapamientos para ensamblar secuencias. A pesar de que las subsecuencias más largas desbloquean características genómicas más largas para el ensamblaje, el aumento asociado de los recursos informáticos limita la viabilidad del DBG frente a otros arquetipos de ensamblaje ya diseñados para lecturas más largas. Aquí revisamos el paradigma DBG para adaptarlo al cambiante panorama de la tecnología de secuenciación e introducimos tres diseños de estructuras de datos para semillas espaciadas en forma de subsecuencias emparejadas. Estas estructuras de datos abordan las limitaciones de memoria y tiempo de ejecución impuestas por las lecturas más largas. Observamos que cuando una distancia fija separa pares de semillas, proporciona una mayor especificidad de secuencia con una mayor longitud de intervalo. Además, observamos que los filtros Bloom serían adecuados para almacenar implícitamente semillas espaciadas y ser tolerantes a los errores de secuenciación. Partiendo de este concepto, describimos una estructura de datos para rastrear las frecuencias de las semillas espaciadas observadas. Estos diseños de estructuras de datos tendrán aplicaciones en ensamblajes de genomas, transcriptomas y metagenomas, y en la corrección de errores de lectura.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento