En diversos problemas de reconocimiento de patrones, se ha observado que el desequilibrio de clases puede disminuir el desempeño del clasificador, principalmente en los patrones de las clases minoritarias. Una estrategia para resolver el problema del desbalance, consiste en tratar por separado las clases incluidas en el problema (clase minoritaria o mayoritaria), a fin de equilibrar los conjuntos de datos. En este sentido, la motivación del presente artículo estriba en el hecho de que el modelo asociativo visto como Clasificador Híbrido Asociativo con Traslación (CHAT), es muy sensible al des-balance de las clases. Por ello, se analiza el impacto que los conjuntos de datos des-balanceados pueden tener sobre el rendimiento del CHAT. Adicionalmente, se analiza la conveniencia de utilizar métodos de bajo-muestreo para disminuir los efectos negativos que el modelo asociativo pueda sufrir. La viabilidad de este estudio se sustenta con los resultados experimentales obtenidos de once conjuntos de datos reales. Finalmente, el presente trabajo se considera como una investigación analítica-sintética.
Introducción
Karl Steinbuch introdujo el primer modelo asociativo, llamado Lernmatrix, en 1961 (Santiago, 2003); puede utilizarse como clasificador de patrones binarios. Desde entonces se han desarrollado varios modelos asociativos, como los modelos HACT, morfológico y alfa beta (Santiago, 2003).
El rendimiento del clasificador está muy relacionado con dos aspectos en el reconocimiento de patrones, independientemente de la aplicación (Japkowicz, 2002; Huang et al., 2006): el modelo de aprendizaje utilizado por el clasificador y la calidad del conjunto de datos (DS) utilizado para el entrenamiento. Algunos problemas inherentes al DS son el desequilibrio del DS, los patrones redundantes, la atipicidad y la alta dimensión (Barandela et al., 2005). Este artículo se centra en el problema del desequilibrio.
El desequilibrio se produce cuando una clase (minoritaria) está muy poco representada en comparación con otras clases (mayoritarias) (Weiss, 2004). Los casos reales (categorización de textos, análisis de créditos) suelen tener pocas muestras de clases minoritarias (Tan, 2005; Huang et al., 2006). La escasa representación de las clases minoritarias complica el aprendizaje del clasificador (Weiss, 2004) y actualmente no existe una solución universal para abordar este problema. Las estrategias de solución propuestas han incluido el muestreo (sobremuestreo o submuestreo) o el ajuste del algoritmo de entrenamiento (Barandela et al., 2005; Chawla et al., 2002).
En este estudio se analiza el rendimiento de un modelo asociativo (HACT) en desequilibrio en relación con dos aspectos: cómo se ve afectado el entrenamiento del modelo cuando se utiliza un DS desequilibrado y la conveniencia de utilizar un muestreo bajo de DS.
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Estudio de conjuntos de datos desbalanceados usando un modelo asociativo con traslación de ejes
Artículo:
Antena textil reconfigurable de dirección de haz para un sistema de comunicación en el cuerpo o fuera de él
Artículo:
Técnicas en el dominio del tiempo por diferencias finitas aplicadas a las interacciones de las ondas electromagnéticas con estructuras de plasma no homogéneas
Artículo:
Análisis de la Integridad de la Señal en Vías a través del Silicio Basadas en Nanotubos de Carbono
Artículo:
Antena de parche apilado para aplicaciones UWB
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Libro:
Ergonomía en los sistemas de trabajo