Una técnica de clasificación con variables categóricas
A Classification Technique With Categorical Variables
Presenta un algoritmo de clasificación para elementos caracterizados por variables categóricas, usando k-modas, un algoritmo similar a k-medias. A la vez, se incluyen diagramas de flujo para la implementación del algoritmo en cualquier lenguaje de programación. También se presenta un ejemplo con datos reales que ilustra la propuesta.
1. INTRODUCCIÓN
La clasificación de individuos en diferentes conglomerados a partir de los valores que tome un conjunto de variables definidas sobre ellos es un procedimiento de gran interés en estadística, ya que tiene numerosas aplicaciones en las que se busca determinar segmentos muy homogéneos de una población.
El caso en que todas las variables que describen a los individuos sean de tipo numérico es ampliamente conocido [2,4,5], y se han proporcionado varias técnicas para formar conglomerados: unas de tipo jerárquico, como el single linkageo el método de Ward, y otras de tipo no jerárquico, como el método k-means. Sin embargo, el caso en que las variables observadas sean de tipo categórico ha sido menos estudiado y prácticamente no existen técnicas que de manera directa conduzcan a la formación de conglomerados. Podría citarse un método indirecto, subproducto del análisis de correspondencias, en el que se pueden calcular las coordenadas de los individuos y de las categorías sobre un biplot para agruparlos aplicando técnicas del caso numérico a dichas coordenadas.
El propósito de este artículo es presentar un método de clasificación que actúe directamente sobre los valores de las variables categóricas y agrupe los individuos basándose en la semejanza de los valores categóricos que ellos asumen. El método que se propone es una adaptación del método k-means de variables numéricas, utilizando el concepto de moda, en vez del concepto de media, idea que ha sido propuesta por varios autores, entre ellos [1,6,7], y que ha servido de inspiración para este trabajo.
2. DISIMILIRIDAD ENTRE INDIVIDUOS
Todos los métodos de clasificación buscan reunir en un solo grupo los individuos que más se parecen entre sí de acuerdo con los valores que ellos asumen en las variables que se estudian. Si se consideran p variables X1,X2,...,Xp, donde cada variable Xk tiene nk categorías, cada individuo xi se asocia con una p-upla xi = (ci11,ci22,...,cipp), donde 1≤ ik ≤ nk y cik = cikk es la categoría que dicho individuo adopta en la variable Xk con k=1,2,...,p. Naturalmente, dos individuos se parecen más cuando coincidenen un número alto de categorías en las p-uplas correspondientes y se diferencian según el número de discrepancias que tengan.
Definición 1. Dados dos individuos xi = (ci1, ci2, ..., cip) y xj = (cj1, cj2, ..., cjp) diremos que entre ellos hay una discrepancia en la k-ésima variable si i ≠j, la cual se representa mediante la métrica discreta:
δ(cik,cjk)={01si i=jsi i=j
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:110 kb