Modelo aumentado de árbol de decisión utilizando mapas autoorganizados
Augmented decision tree models using self-organizing maps
Un aspecto clave en el proceso de descubrimiento de conocimiento en bases de datos (KDD) es la comprensibilidad y credibilidad de los modelos generados por los esquemas inductivos de aprendizaje. Este artículo explora la aplicación de la técnica SOM sobre un modelo de árbol de decisión, para lograr una visualización aumentada del modelo. Representaciones de percepción visual del modelo, conjuntamente con datos y patrones, son establecidas basados en un esquema denominado VAM-MD, para soportar eficientemente su exploración y análisis visual durante la etapa de afinamiento del modelo de minería de datos. Con esto se busca responder preguntas genéricas respecto del funcionamiento interno del modelo, y con ello lograr mejorar su comprensión. Esta propuesta se implementó con un software prototipo, donde el analista de datos puede aplicar un conjunto de elementos visuales, sobre los datos en cada nodo del árbol, seleccionados apropiadamente para complementar la visualización del modelo generado. Además, el usuario dispone de diversos mecanismos de interacción que le permiten explorar cada componente del modelo. Finalmente, se analizan los resultados obtenidos desde un experimento controlado, llevado a cabo con dos grupos de usuarios, quienes utilizaron el software WEKA y el prototipo experimental para realizar una tarea de minería de datos sobre un conjunto de datos previamente preparados. El análisis preliminar de los resultados obtenidos permiten, por un lado, corroborar empíricamente la utilidad del uso de la técnica SOM para aumentar visualmente un árbol de decisión, y por otro, estimar subjetivamente su eficiencia en apoyar la comprensión del modelo generado.
INTRODUCCIÓN
El proceso de descubrimiento de conocimiento en bases de datos (KDD: Knowledge Discovery in Databases) es complejo, y muchos obstáculos, preguntas de investigación y problemas requieren ser investigados y clarificados. Un importante aspecto es la comprensibilidad de las entidades involucradas en el proceso de Minería de Datos (MD) en sí. Cuando los usuarios y analistas de datos desean interactuar con estas entidades para mejorar los resultados necesitan más que solo información de entrada/salida, lo que realmente requieren es entender cómo estas entidades trabajan internamente, sus componentes, el proceso llevado a cabo por ellas, y cómo se relacionan unas con otras.
En este contexto, el paradigma de visualización ha sido aplicado en una forma muy limitada en el proceso KDD, y principalmente enfocado hacia la visualización de datos (entrada del proceso) y resultados (salida del proceso). Por lo tanto, visualizaciones integradas en otras tareas y etapas del proceso de MD podrían mejorar este proceso y producir mejores resultados, especialmente cuando solo enfoques algorítmicos y analíticos han sido explorados, o donde la visualización ha sido aplicada débilmente.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:197 kb