Using centrality measures to improve the classification performance of tweets during natural disasters
Usando medidas de centralidad para mejorar la clasificación de tweets durante desastres naturales
Las redes sociales como Twitter facilitan la comunicación durante posibles desastres naturales. Un problema recurrente es lograr distinguir en tiempo real los tweets más contingentes de un desastre, del flujo masivo de mensajes recibidos. Para tratar este problema, el aprendizaje de máquina permite clasificar tweets respecto a su relevancia o credibilidad. En este artículo, se propone el uso de medidas de centralidad para mejorar conjuntos de datos de entrenamiento para el uso de clasificadores de aprendizaje activo. Como caso de estudio, se analizan tweets recolectados durante las inundacionesde Santiago de Chile en el año 2016. Este enfoque permite mejorar la consistencia y pertinencia en el proceso de etiquetado, así como la calidad de los clasificadores.
INTRODUCCIÓN
En tiempos de crisis, los servicios de microblogging se utilizan para comunicar información táctica y procesable, que ayuda a comprender los eventos de emergencia masiva1. Estos servicios pueden ayudar a geolocalizar y visualizar daños en infraestructuras, almacenes, necesidades de la población, desabastecimientos, entre otros1. En la actualidad, Twitter es uno de los principales servicios de redes sociales en línea de todo el mundo. Aunque tiene menos usuarios que otras redes sociales como Facebook o Instagram, ha sido diseñada para difundir información de forma más rápida, pública y persistente. Debido a estas características, Twitter es una herramienta útil para la difusión de información, la coordinación y la toma de decisiones durante eventos de crisis como catástrofes naturales 2-3.
Durante una crisis, los usuarios de Twitter tienden a difundir información diversa y dispersa, tanto en contenido como en nivel de detalle. Aparte de los numerosos mensajes no relacionados con la catástrofe, también puede haber muchos tweets informativos sobre informes de daños, peticiones y ofertas de ayuda, búsquedas de desaparecidos, mensajes de ánimo, entre otros. Como primera aproximación para encontrar estos tuits informativos, se puede definir una bolsa de palabras relacionadas con la catástrofe actual y, a continuación, buscar aquellos tuits que contengan alguno de los términos de esta bolsa de palabras. Para clasificar los tweets informativos, existen plataformas de crowdsourcing en las que algunos voluntarios pueden etiquetar diferentes tweets según distintos criterios. Sin embargo, el tiempo de etiquetado es costoso y, durante una catástrofe, la reacción debe ser lo más rápida posible. Además, la cantidad de datos podría ser demasiado grande, por lo que etiquetar un alto porcentaje de tuits puede resultar inviable (3. Para evitar este problema, es habitual utilizar el aprendizaje activo, un método de aprendizaje automático supervisado que solo requiere seleccionar un pequeño subconjunto de tuits recogidos durante el suceso catastrófico.
Recursos
-
Formatopdf
-
Idioma:inglés
-
Tamaño:994 kb