Análisis del proceso de minería de datos sobre la base de datos Bioinformática de segmentos de la proteína p53, asociada a la actividad cancerígena
Data mining process analiysis, on a bioinformatics database about p53 protein’s segments, related to carcinogenic activity
Se estudió la utilización de estrategias para afrontar el problema del desbalanceo y la alta dimensionalidad de los registros que habitualmente forman parte delas bases de datos en el área bioinformática. Se tomó como caso de estudio la base de datos de segmentos de la proteína p53; sobre dicha base se construyen modelos con el fin de identificar si corresponden a patrones activos o inactivos. El problema del desbalanceo se abordó a través de una red neuronal no supervisada, y el de la selección de variables para reducir la alta dimensionalidad, a partir de una combinación de métodos con diferentes enfoques. Experimentos preliminares del modelo propuesto en datos estándar muestran resultados promisorios.
INTRODUCCIÓN
A. Descripción del problema
Actualmente, si se quiere abordar una tarea de análisis sobre las bases de datos en bioinformática, mediante un proceso de Minería de Datos, estas presentan varias dificultades, referidas fundamentalmente al fuerte desbalanceo en el número de registros asociados a una clase o comportamiento o patrón respecto de los demás patrones, y a la alta dimensionalidad de dichos registros. El problema del desbalanceo de datos es relativamente nuevo en la literatura de aprendizaje automático y minería de datos; sin embargo, es un tema de creciente interés en dicha comunidad, debido a sus efectos sobre los resultados obtenidos y al número de aplicaciones en donde se puede encontrar esta situación. Un conjunto de datos desbalanceados se puede definir como aquellos que presentan una desproporción notable en el número de instancias pertenecientes a cada clase; ello provoca un sesgo en el desempeño de los clasificadores estándares hacia el reconocimiento de las clases más numerosas, en detrimento de las más raras [1].
Entre las aplicaciones donde se puede observar prevalencia de datos desbalanceados se pueden citar, entre otras: detección de fraude e intrusión, manejo de riesgo, clasificación de texto, detección de fallas en procesos industriales y diagnóstico y monitoreo médico [2]. Para hacer las cosas más difíciles, en muchas de estas aplicaciones las clases más raras son justamente las que interesa especialmente reconocer. En la literatura se pueden encontrar varios métodos para tratar el problema de aprendizaje automático de clasificadores utilizando datos desbalanceados, sin embargo, este problema permanece abierto. Entre las estrategias propuestas se pueden distinguir dos enfoques: en el primero se opta por la asignación de un costo diferencial a las instancias de entrenamiento según las frecuencias de clases, mientras que en el segundo se remuestrea el conjunto de datos originales, ya sea agregando casos sintéticos o repetidos de la clase minoritaria o submuestreando las clases mayoritarias [3].
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:357 kb