Métricas para el apoyo de la exploración visual de componentes en modelos de minería de datos
Metrics for the support of visual exploration of components in data mining models
La exploración de un modelo de Minería de Datos (MD), mediante el uso de técnicas de representación visual apropiadas y mecanismos de interacción integrados, presentan ventajas para el analista o minero de datos al momento de intentar comprender un modelo datos. Actualmente, existen nuevas propuestas de metodologías y esquemas de visualización para apoyar procesos de MD, que integran características que combinan técnicas de MD y artefactos gráficos ad-hoc con el objetivo de facilitar el análisis y exploración de modelos, mediante el uso de visualización en la entrada (análisis exploratorio de datos) del proceso de MD, luego en el proceso de generación del modelo (visualización y exploración del modelo y de sus componentes internas), y finalmente en la salida de este proceso (visualización de patrones). Sin embargo, esto apunta a un análisis cualitativo y muchas veces subjetivo, que depende directamente de la experiencia y experticia del analista o minero de datos. Para poder complementar este análisis cualitativo, es necesario incorporar en el esquema visual, funciones con métricas que permitan corroborar cuantitativamente. Este trabajo se orienta en esta dirección, y describe la definición, adaptación, e implementación de un conjunto de métricas que permiten validar y complementar el análisis visual de un modelo de MD, mediante el uso de métricas de distancia y similitud, aplicadas sobre las componentes del modelo de MD. Este trabajo utiliza como caso de estudio, un modelo de MD generado a través de la técnica Árbol de Decisión (ÁD), combinada con la técnica mapas de Kohonen o Self-Organizing Map (SOM) aplicada sobre las componentes o nodos del ÁD. Se logra comprobar la validez de las métricas propuestas a partir de su aplicación, sobre un conjunto de datos conocido a partir de una tarea de MD previamente definida.
INTRODUCCIÓN
Uno de los principales desafíos durante el desarrollo de un proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD) es la interpretación y entendimiento de los patrones obtenidos a partir del modelo de Minería de Datos (MD) resultante de la etapa de MD. Por lo general, un proceso de KDD consiste en 5 etapas: selección de datos, preparación o pre-procesamiento de los datos, análisis exploratorio, MD, interpretación de patrones, y evaluación de modelos. De las últimas dos etapas, depende la obtención del modelo de MD final, que en la mayoría de las veces, requiere sucesivas iteraciones sobre el análisis exploratorio de los datos de entrada, y obtención de patrones e interpretación de resultados (1. Algunos autores, señalan que el uso de la visualización debiera estar incorporada en todo el desarrollo del proceso de KDD, como herramienta para el soporte de las interacciones entre usuarios finales y analistas de datos 1-5. Sin embargo, pocas propuestas de procesos de KDD incorporan y discuten el rol de la visualización dentro de este proceso (5.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:2000 kb