Identification of related multilingual documents using ant clustering algorithms
Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas
Este trabajo presenta una estrategia de representación de documentos y un algoritmo bioinspirado para agrupar colecciones multilingües de documentos en el campo de la economía y los negocios. El enfoque propuesto permite al usuario identificar grupos de documentos de economía relacionados entre sí, escritos en español e inglés, utilizando técnicas inspiradas en los comportamientos de agrupación y clasificación observados en algunos tipos de hormigas. Para obtener una representación vectorial independiente del idioma de cada documento se utilizan dos recursos multilingües: un glosario económico y un tesauro. Cada documento se representa mediante cuatro vectores de características: palabras, nombres propios, términos económicos del glosario y descriptores del tesauro. La identificación de los nombres propios, la extracción de palabras y la lematización se realizan con herramientas específicas. El esquema tf-idf se utiliza para medir la importancia de cada característica en el documento, y una combinación lineal convexa de separaciones angulares entre vectores de características se utiliza como medida de similitud de los documentos. El artículo muestra los resultados experimentales de la aplicación del algoritmo propuesto en un corpus español-inglés de documentos de investigación en las áreas de economía y gestión. Los resultados demuestran la utilidad y eficacia del algoritmo de antclustering y del esquema de representación propuesto.
INTRODUCCIÓN
Las tecnologías de la información (TI) están transformando la forma en que las organizaciones y las personas hacen negocios. Los sistemas de información capturan y almacenan datos de la organización y su entorno, y los directivos los utilizan en los procesos de toma de decisiones, planificación y control. La información se ha convertido en un recurso estratégico de primer orden para las organizaciones, ya que una adecuada gestión de la información puede permitirles comprender la realidad del entorno en el que operan y obtener ventajas competitivas. Las Tecnologías de la Información y las Comunicaciones han intensificado el uso de la información como soporte en las actividades económicas, permitiendo que la información sea procesada, almacenada, recuperada y comunicada sin tener en cuenta la distancia, el tiempo o el volumen. Además, el rápido crecimiento de la World Wide Web ha afectado profundamente a la cultura de la tecnología de la información en las empresas y a la forma en que se suministra la información a través de un ordenador. Hoy en día, cualquier persona con un ordenador personal y acceso a la Web puede acceder a enormes volúmenes de información distribuidos a través de redes informáticas. Esta expansión de la Web significa que la información accesible electrónicamente está ahora disponible en un número cada vez mayor de idiomas.
La actividad empresarial actual se caracteriza por la internacionalización y globalización de los mercados. En este contexto, las organizaciones obtienen grandes volúmenes de información de diversas fuentes de forma automática (suscripción a noticias, sindicación de contenidos, recuperación de información de bases de datos, consultas en Internet, etc.) y a menudo esta información se refleja en documentos escritos en diferentes idiomas.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:180 kb