Visualización Interactiva para Modelos de Clústeres
Interactive Visualization for Clustering Models
Este artículo presenta el diseño e implementación de un nuevo esquema de visualización interactiva para modelos de clústeres denominado VIMC, en el contexto de un proceso de minería de datos. La visualización de un modelo de clústeres se torna compleja cuando el conjunto de datos es de alto volumen, densidad y dimensionalidad. El diseño del esquema VIMC se basa en cuatro características: visualización interactiva, combinación de modelos, artefactos gráficos ad-hoc, y uso de métricas. El objetivo de este esquema es contribuir al análisis y comprensión de un modelo de clústeres. Las métricas consideradas en este esquema propuesto, permiten comparar componentes de distintos clústeres, lo que a su vez ayuda a entender como se componen los grupos. A través de la implementación de un entorno visual web que reúne las características definidas en VIMC, y una evaluación en línea de 23 usuarios, donde se logran resultados positivos sobre la utilidad de este nuevo esquema de visualización.
INTRODUCCIÓN
Comprender e interpretar apropiadamente los resultados de un modelo es lo más crítico en un proceso de Minería de Datos (MD). Se sostiene que una de las formas de apoyar esto es utilizando visualización apropiada en la construcción del modelo. Esto establece que al conocer el funcionamiento interno del modelo, permite por un lado, comprender como funciona y por otro lado, interpretar mejor sus resultados. En particular, visualización de modelos de clústeres es difícil de llevar a cabo, principalmente cuando el conjunto de datos es de gran volumen, y el número de dimensiones es alto. Por ejemplo, con 3 dimensiones no se pueden observar todos los atributos simultáneamente, más complejas en el caso de clústeres de alta densidad.
De la revisión del estado de arte en este trabajo, y la evaluación de herramientas de MD existentes, se pudo constatar la dificultad que presenta visualización de modelos de clústeres. También, que existen diversas métricas para comparar clústeres, pero la mayoría de las herramientas utilizan el cálculo de distancia, y muy pocas, implementan comparación de componentes. Además, las herramientas de MD analizadas no realizan combinación de técnicas, y no proporcionan un nivel adecuado de interacción para explorar en profundidad un modelo.
El objetivo de esta investigación justamente aborda el problema de la complejidad para la visualización de modelos de clústeres. Para esto es necesario considerar elementos adecuados para el diseño y desarrollo de un esquema de visualización, que permita explorar un modelo de clústeres, bajo demanda, y para lo cual es fundamental definir mecanismos de interacción apropiados.
Otro elemento es la combinación del modelo de clústeres con un modelo descriptivo que permita establecer relaciones entre los atributos del conjunto de datos.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:638 kb