-- Revista

Ing. Investig. Vol 32. No 1 Abril 2012 | Número Ing. Investig. Vol 32. No 1

Estudio de conjuntos de datos desbalanceados usando un modelo asociativo con traslación de ejes

Using hybrid associative classifier with translation (HACT) for studying imbalanced data sets

Este documento es un artículo elaborado por Laura Cleofas Sánchez, Rosa María Valdovinos Rosas, Cornelio Yáñez Márquez, Oscar Camacho Nieto (Instituto Politécnico Nacional, México) y Magali Guzmán Escobedo (Instituto Tecnológico Superior de Ciudad Hidalgo, Mexico.) para Ingeniería e Investigación Vol 32. Núm. 1.

Using hybrid associative classifier with translation (HACT) for studying imbalanced data sets

Estudio de conjuntos de datos desbalanceados usando un modelo asociativo con traslación de ejes

En diversos problemas de reconocimiento de patrones, se ha observado que el desequilibrio de clases puede disminuir el desempeño del clasificador, principalmente en los patrones de las clases minoritarias. Una estrategia para resolver el problema del desbalance, consiste en tratar por separado las clases incluidas en el problema (clase minoritaria o mayoritaria), a fin de equilibrar los conjuntos de datos. En este sentido, la motivación del presente artículo estriba en el hecho de que el modelo asociativo visto como Clasificador Híbrido Asociativo con Traslación (CHAT), es muy sensible al des-balance de las clases. Por ello, se analiza el impacto que los conjuntos de datos des-balanceados pueden tener sobre el rendimiento del CHAT. Adicionalmente, se analiza la conveniencia de utilizar métodos de bajo-muestreo para disminuir los efectos negativos que el modelo asociativo pueda sufrir. La viabilidad de este estudio se sustenta con los resultados experimentales obtenidos de once conjuntos de datos reales. Finalmente, el presente trabajo se considera como una investigación analítica-sintética.

Introducción

Karl Steinbuch introdujo el primer modelo asociativo, llamado Lernmatrix, en 1961 (Santiago, 2003); puede utilizarse como clasificador de patrones binarios. Desde entonces se han desarrollado varios modelos asociativos, como los modelos HACT, morfológico y alfa beta (Santiago, 2003).

El rendimiento del clasificador está muy relacionado con dos aspectos en el reconocimiento de patrones, independientemente de la aplicación (Japkowicz, 2002; Huang et al., 2006): el modelo de aprendizaje utilizado por el clasificador y la calidad del conjunto de datos (DS) utilizado para el entrenamiento. Algunos problemas inherentes al DS son el desequilibrio del DS, los patrones redundantes, la atipicidad y la alta dimensión (Barandela et al., 2005). Este artículo se centra en el problema del desequilibrio.

El desequilibrio se produce cuando una clase (minoritaria) está muy poco representada en comparación con otras clases (mayoritarias) (Weiss, 2004). Los casos reales (categorización de textos, análisis de créditos) suelen tener pocas muestras de clases minoritarias (Tan, 2005; Huang et al., 2006). La escasa representación de las clases minoritarias complica el aprendizaje del clasificador (Weiss, 2004) y actualmente no existe una solución universal para abordar este problema. Las estrategias de solución propuestas han incluido el muestreo (sobremuestreo o submuestreo) o el ajuste del algoritmo de entrenamiento (Barandela et al., 2005; Chawla et al., 2002).

En este estudio se analiza el rendimiento de un modelo asociativo (HACT) en desequilibrio en relación con dos aspectos: cómo se ve afectado el entrenamiento del modelo cuando se utiliza un DS desequilibrado y la conveniencia de utilizar un muestreo bajo de DS.

Este documento es un artículo elaborado por Laura Cleofas Sánchez, Rosa María Valdovinos Rosas, Cornelio Yáñez Márquez, Oscar Camacho Nieto (Instituto Politécnico Nacional, México) y Magali Guzmán Escobedo (Instituto Tecnológico Superior de Ciudad Hidalgo, Mexico.) para Ingeniería e Investigación Vol 32. Núm. 1. Publicación de Universidad Nacional de Colombia - UN. Contacto: [email protected]

Recursos

VER FICHA