Se estudió la utilización de estrategias para afrontar el problema del desbalanceo y la alta dimensionalidad de los registros que habitualmente forman parte delas bases de datos en el área bioinformática. Se tomó como caso de estudio la base de datos de segmentos de la proteína p53; sobre dicha base se construyen modelos con el fin de identificar si corresponden a patrones activos o inactivos. El problema del desbalanceo se abordó a través de una red neuronal no supervisada, y el de la selección de variables para reducir la alta dimensionalidad, a partir de una combinación de métodos con diferentes enfoques. Experimentos preliminares del modelo propuesto en datos estándar muestran resultados promisorios.
INTRODUCCIÓN
A. Descripción del problema
Actualmente, si se quiere abordar una tarea de análisis sobre las bases de datos en bioinformática, mediante un proceso de Minería de Datos, estas presentan varias dificultades, referidas fundamentalmente al fuerte desbalanceo en el número de registros asociados a una clase o comportamiento o patrón respecto de los demás patrones, y a la alta dimensionalidad de dichos registros. El problema del desbalanceo de datos es relativamente nuevo en la literatura de aprendizaje automático y minería de datos; sin embargo, es un tema de creciente interés en dicha comunidad, debido a sus efectos sobre los resultados obtenidos y al número de aplicaciones en donde se puede encontrar esta situación. Un conjunto de datos desbalanceados se puede definir como aquellos que presentan una desproporción notable en el número de instancias pertenecientes a cada clase; ello provoca un sesgo en el desempeño de los clasificadores estándares hacia el reconocimiento de las clases más numerosas, en detrimento de las más raras [1].
Entre las aplicaciones donde se puede observar prevalencia de datos desbalanceados se pueden citar, entre otras: detección de fraude e intrusión, manejo de riesgo, clasificación de texto, detección de fallas en procesos industriales y diagnóstico y monitoreo médico [2]. Para hacer las cosas más difíciles, en muchas de estas aplicaciones las clases más raras son justamente las que interesa especialmente reconocer. En la literatura se pueden encontrar varios métodos para tratar el problema de aprendizaje automático de clasificadores utilizando datos desbalanceados, sin embargo, este problema permanece abierto. Entre las estrategias propuestas se pueden distinguir dos enfoques: en el primero se opta por la asignación de un costo diferencial a las instancias de entrenamiento según las frecuencias de clases, mientras que en el segundo se remuestrea el conjunto de datos originales, ya sea agregando casos sintéticos o repetidos de la clase minoritaria o submuestreando las clases mayoritarias [3].
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Algoritmo de predicción basado en datos sanitarios para posibles lesiones en la articulación de la rodilla de futbolistas
Artículo:
Nuevos registros de (Meruliaceae, Polyporales) para la India
Artículo:
Retención de arsénico en tecnosoles preparados con nanopartículas y tierra férrica procedente de aguas de drenaje de minas
Artículo:
Remoción de Iones de Plomo (II) de Soluciones Acuosas sobre Carbón Activado Derivado de Biomasa Residual
Artículo:
Estudio comparativo de la capacidad de síntesis de nanopartículas de plata y de la actividad antibacteriana de los extractos de Piper Betle L. y Piper Sarmentosum Roxb. Extracts
Artículo:
Medicina de la conservación ¿una disciplina para médicos veterinarios?
Libro:
Tratamiento de aguas para consumo humano : plantas de filtración rápida. Manual II : diseño de plantas de tecnología apropiada
Artículo:
Configuración de los valores de María, antes y después de la violación, en Satanás de Mario Mendoza
Showroom:
Panel fotovoltaico: Dimensionamiento y funcionamiento