An Empirical Comparison of EM and K-means Algorithms for Binning Metagenomics Datasets
Comparación Empírica de los Algoritmos EM y K-medias para Binning de Conjuntos de Datos Metagenómicos
La metagenómica es un área de la microbiología que trata con la clasificación taxonómica de muestras tomadas directamente del ambiente. Estas muestras son secuencias de largo variable que pueden pertenecer a distintas especies, algunas pueden ser desconocidas o no han sido almacenadas previamente en una base de datos genómica. Uno de los pasos principales en la clasificación metagenómica corresponde al proceso de binning de los fragmentos de secuencias en grupos que pueden corresponder a una especie. Se han usado varios acercamientos para realizar binning, principalmente algoritmos de machine learning para realizar la clasificación o agrupamiento. Este artículo presenta los resultados de una evaluación empírica de dos algoritmos no supervisados bien conocidos, para realizar la tarea de binning metagenómico: EM vs. K-medias. Ambos algoritmos son probados para secuencias largas y cortas de conjuntos de datos sintéticos, con diferentes proporciones y número de especies. Estos resultados empíricos muestran que K-medias en general tiene un mejor rendimiento que el algoritmo EM, pero los resultados de EM son competitivos cuando son probados con varios conjuntos de secuencias cortas.
INTRODUCCIÓN
Un problema recurrente en microbiología es identificar los microorganismos presentes en un ambiente, si consideramos que sólo el 1% de los microorganismos del ambiente son cultivables en el laboratorio 1, el 99% de ellos deben ser estudiados por métodos indirectos. El principal de estos métodos indirectos es la secuenciación, que consiste en la lectura ordenada de cada una de las moléculas de nucleótidos que componen la cadena de ADN (Adenina, Timina, Guanina, Citosina) y su interpretación en una cadena utilizando un carácter específico para cada tipo de Nucleótido (A, T, G, C). La secuenciación de todo el material genético de un organismo se denomina Genoma.
El metagenoma es uno de los métodos de la microbiología utilizados para conocer el comportamiento de un medio, y consiste en la secuenciación de todo el material genético presente en una muestra. Entre las llamadas nuevas técnicas de secuenciación se encuentra la secuenciación Shotgun, que da lugar a una colección de secuencias de entre 70 y 200 caracteres de longitud llamadas reads. Como la muestra es ambiental, se desconoce a qué organismo pertenece cada reads. Los métodos de binning son aproximaciones computacionales para la agrupación de estas reads en genomas correspondientes a su especie original.
Estos métodos pueden presentarse como supervisados o no supervisados. Los métodos supervisados utilizan la información previa de las bases de datos para agrupar las lecturas en genomas, arrastrando el problema de la microbiología clásica de no conocer más del 1% de los organismos existentes en el entorno; los métodos no supervisados utilizan la información extraíble de las lecturas (por ejemplo, la distribución de caracteres, las lecturas) para clasificar las secuencias en genomas.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:480 kb