Biblioteca122.739 documentos en línea

Artículo

A Fast Clustering Algorithm for Data with a Few Labeled InstancesUn algoritmo de clustering rápido para datos con pocas instancias etiquetadas

Resumen

El diámetro de un clúster es la máxima distancia intraclúster entre pares de instancias dentro del mismo clúster, y la división de un clúster es la mínima distancia entre instancias dentro del clúster e instancias fuera del clúster. Dadas unas pocas instancias etiquetadas, este trabajo incluye dos aspectos. En primer lugar, presentamos un algoritmo de clustering sencillo y rápido con la siguiente propiedad: si la relación entre la división mínima y el diámetro máximo (RSD) de la solución óptima es mayor que uno, el algoritmo devuelve soluciones óptimas para tres criterios de clustering. En segundo lugar, estudiamos el problema de aprendizaje métrico: aprender una métrica de distancia para que el RSD sea lo más grande posible. En comparación con los algoritmos de aprendizaje métrico existentes, uno de nuestros algoritmos de aprendizaje métrico es eficiente desde el punto de vista computacional: se trata de un modelo de programación lineal en lugar de un modelo de programación semidefinida utilizado por la mayoría de los algoritmos existentes. Demostramos empíricamente que la supervisión y la métrica aprendida pueden mejorar la calidad del clustering.

  • Tipo de documento:
  • Formato:pdf
  • Idioma:Inglés
  • Tamaño: Kb

Cómo citar el documento

Esta es una versión de prueba de citación de documentos de la Biblioteca Virtual Pro. Puede contener errores. Lo invitamos a consultar los manuales de citación de las respectivas fuentes.

Este contenido no est� disponible para su tipo de suscripci�n

Información del documento