Presenta un algoritmo de clasificación para elementos caracterizados por variables categóricas, usando k-modas, un algoritmo similar a k-medias. A la vez, se incluyen diagramas de flujo para la implementación del algoritmo en cualquier lenguaje de programación. También se presenta un ejemplo con datos reales que ilustra la propuesta.
1. INTRODUCCIÓN
La clasificación de individuos en diferentes conglomerados a partir de los valores que tome un conjunto de variables definidas sobre ellos es un procedimiento de gran interés en estadística, ya que tiene numerosas aplicaciones en las que se busca determinar segmentos muy homogéneos de una población.
El caso en que todas las variables que describen a los individuos sean de tipo numérico es ampliamente conocido [2,4,5], y se han proporcionado varias técnicas para formar conglomerados: unas de tipo jerárquico, como el single linkageo el método de Ward, y otras de tipo no jerárquico, como el método k-means. Sin embargo, el caso en que las variables observadas sean de tipo categórico ha sido menos estudiado y prácticamente no existen técnicas que de manera directa conduzcan a la formación de conglomerados. Podría citarse un método indirecto, subproducto del análisis de correspondencias, en el que se pueden calcular las coordenadas de los individuos y de las categorías sobre un biplot para agruparlos aplicando técnicas del caso numérico a dichas coordenadas.
El propósito de este artículo es presentar un método de clasificación que actúe directamente sobre los valores de las variables categóricas y agrupe los individuos basándose en la semejanza de los valores categóricos que ellos asumen. El método que se propone es una adaptación del método k-means de variables numéricas, utilizando el concepto de moda, en vez del concepto de media, idea que ha sido propuesta por varios autores, entre ellos [1,6,7], y que ha servido de inspiración para este trabajo.
2. DISIMILIRIDAD ENTRE INDIVIDUOS
Todos los métodos de clasificación buscan reunir en un solo grupo los individuos que más se parecen entre sí de acuerdo con los valores que ellos asumen en las variables que se estudian. Si se consideran p variables X1,X2,...,Xp, donde cada variable Xk tiene nk categorías, cada individuo xi se asocia con una p-upla xi = (ci11,ci22,...,cipp), donde 1≤ ik ≤ nk y cik = cikk es la categoría que dicho individuo adopta en la variable Xk con k=1,2,...,p. Naturalmente, dos individuos se parecen más cuando coincidenen un número alto de categorías en las p-uplas correspondientes y se diferencian según el número de discrepancias que tengan.
Definición 1. Dados dos individuos xi = (ci1, ci2, ..., cip) y xj = (cj1, cj2, ..., cjp) diremos que entre ellos hay una discrepancia en la k-ésima variable si i ≠j, la cual se representa mediante la métrica discreta:
Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.
Artículo:
Programación de grupos con efecto de aprendizaje y tiempo de procesamiento aleatorio
Artículo:
Efecto de la corteza en el proceso de secado al vacío de un medio poroso
Artículo:
Grado de Acoplamiento y Coordinación entre la Urbanización y el Medio Ambiente Ecológico en Guizhou, China.
Artículo:
Revisión de métodos para fijar el número de neuronas ocultas en redes neuronales
Artículo:
Enfoque variacional para la ecuación de Schrödinger magnética fraccional de orden variable con crecimiento variable y potencial pronunciado en
Artículo:
Creación de empresas y estrategia : reflexiones desde el enfoque de recursos
Artículo:
La gestión de las relaciones con los clientes como característica de la alta rentabilidad empresarial
Artículo:
Los web services como herramienta generadora de valor en las organizaciones
Artículo:
Configuración de los valores de María, antes y después de la violación, en Satanás de Mario Mendoza