Tools and databases for solving problems in detection and identification of repetitive DNA sequences
Herramientas y bases de datos para resolver problemas de detección e identificación de secuencias repetitivas de ADN
Los compartimentos del genoma conocidos por desempeñar funciones biológicas muy importantes (por ejemplo, los centrómeros y los telómeros) están constituidos en su mayoría por secuencias repetitivas. Al mismo tiempo, las regiones de los genomas enriquecidas en secuencias repetitivas siempre han presentado grandes retos técnicos para los alineamientos de secuencias y los ensamblajes de genomas. La rápida evolución de las tecnologías de secuenciación y la creciente accesibilidad de los conjuntos de datos genómicos han abierto la oportunidad de obtener nuevos conocimientos sobre fracciones del genoma poco exploradas, formadas por ADN repetitivo. La anotación y caracterización exhaustiva y precisa de estas secuencias es, por tanto, una contribución importante a la comprensión de la arquitectura y la función genómicas en su conjunto. Para atender las necesidades emergentes en el análisis y caracterización de repeticiones, se han generado muchas herramientas bioinformáticas, bases de datos y pipelines. Esta revisión pretende llamar la atención sobre los problemas encontrados en los estudios genómicos de secuencias repetitivas y proporcionar una visión general de un espectro de las herramientas bioinformáticas más destacadas utilizadas para obtener una mejor comprensión de estos importantes componentes genómicos. Algunos de los activos descritos se centran en la detección de una amplia gama de repeticiones, mientras que otros se centran en un tipo específico de secuencias repetitivas de ADN, generadas como respuesta a intereses y necesidades específicas de investigación de la comunidad científica
Secuencias Repetitivas en Eucariotas Genomas
Dos clases de repeticiones muy abundantes presentes en los genomas eucariotas son las secuencias repetidas en tándem y las secuencias intercaladas (Figura 1). Las repeticiones en tándem pueden dividirse en satélites, minisatélites, microsatélites y telómeros, que difieren en la longitud de la unidad de repetición, los mecanismos de su origen y la longitud de los conjuntos que forman.
El más destacado de ellos, el ADN satélite (ADNsat), está compuesto por secuencias genómicas abundantes que suelen localizarse en compartimentos heterocromáticos cerca de centrómeros y telómeros, así como en posiciones cromosómicas intersticiales (1-4). Las repeticiones de SatADN forman típicamente matrices largas, aunque también pueden encontrarse dispersas en compartimentos eucromáticos del genoma. Muchos satDNAs diferentes suelen entrelazarse en el genoma, distintos en secuencia, longitud de sus monómeros, abundancia y distribución cromosómica. Debido a los intercambios aleatorios no recíprocos entre secuencias en conjuntos, los monómeros de ADNsat evolucionan de forma concertada, manteniendo una baja variabilidad de la secuencia del satADN dentro del genoma (normalmente del 2-3%) y promoviendo rápidas alteraciones en el número de copias de los monómeros de ADNsat (3, 5, 6). En cuanto a sus roles estructurales y/o funcionales, los satDNAs se consideran importantes en los centrómeros (7, 8) y en la creación de barreras reproductivas entre especies (9), mientras que sus transcritos activan la formación de heterocromatina o pueden estar implicados en procesos que conducen a la transformación celular (4, 10-12).
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:492 kb