Assessing the behavior of machine learning methods to predict the activity of antimicrobial peptides
Evaluar el comportamiento de los métodos de aprendizaje automático para predecir la actividad de péptidos antimicrobianos
Este trabajo demuestra la importancia de obtener resultados estadísticamente estables cuando se emplean métodos de aprendizaje computacional para predecir la actividad de péptidos antimicrobianos donde, debido al costo y la complejidad de los procesos químicos, los conjuntos de datos son particularmente pequeños (menos de unos cientos de instancias). Al igual que en otros campos con problemas similares, esto produce grandes variabilidades en el rendimiento de los modelos predictivos, lo que dificulta cualquier intento por transferirlos a la práctica. Por ello, a diferencia de otros trabajos que reportan rendimientos predictivos máximos obtenidos en configuraciones experimentales muy particulares, nos enfocamos en caracterizar el comportamiento de los métodos de aprendizaje de máquina, como paso previo a obtener resultados reproducibles, estadísticamente estables y, finalmente, con una capacidad predictiva competitiva. Para este propósito se diseñó una metodología que integra el aprendizaje de características (autoencoders) y métodos de selección (algoritmos genéticos) a través del uso exhaustivo de métricas de rendimiento (test de permutaciones y bootstrapping), permitiendo obtener la evidencia estadística suficiente como para soportar la toma de decisiones de inversión con los recursos disponibles del laboratorio. En este trabajo se muestra evidencia de la utilidad de: 1) el uso extensivo de los recursos computacionales y 2) la adopción de una gama más amplia de métricas que las reportadas en la literatura para evaluar el funcionamiento de los métodos. Este enfoque permitió orientar la búsqueda de métodos de aprendizaje de máquinas adecuados y, además, se obtuvieron resultados comparables a los de la literatura con una gran estabilidad estadística.
I. INTRODUCCIÓN
Recientemente, se han utilizado diferentes métodos de reconocimiento de patrones para estimar la actividad de las moléculas biológicas. Por ejemplo, las metodologías de relación cuantitativa estructura-actividad (QSAR) se utilizan ampliamente para predecir la actividad de péptidos antimicrobianos sintéticos y naturales. La QSAR correlaciona las propiedades fisicoquímicas (descriptores) calculadas a partir de la secuencia o la estructura del péptido con la actividad biológica del mismo mediante una función matemática [1]. Los conjuntos de datos utilizados en este campo se caracterizan por la alta dimensionalidad de los descriptores y por su pequeño tamaño de muestra.
Algunos de los métodos que se han utilizado para predecir péptidos antimicrobianos son los mínimos cuadrados parciales [2,3], las redes neuronales artificiales [4], la regresión lineal múltiple [5,6] y la regresión de vectores de apoyo (SVR) [7-9], entre otros.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:1034 kb