Una comparación empírica de algoritmos de aprendizaje automático versus aprendizaje profundo para la detección de noticias falsas en redes sociales
An empirical comparison of machine learning algorithms vs deep learning for fake news detection in social networks.
Este estudio se enfoca en el creciente problema de las noticias falsas o Fake News en las redes sociales. Debido a la capacidad del ser humano para ser engañado por estas noticias, se han desarrollado modelos basados en minería de datos y machine learning para identificar y caracterizar estas publicaciones engañosas. El artículo presenta una comparación empírica de diferentes enfoques de machine learning y deep learning en la tarea de identificar noticias falsas. Utilizando conjuntos de datos recopilados del estado del arte, se evalúa la eficacia de varios modelos. Los resultados muestran mejoras significativas en la precisión (accuracy) en comparación con los resultados obtenidos en estudios previos, destacando el uso de la técnica de muestreo y la representación vectorial Tf-Idf del corpus. En resumen, este estudio contribuye al campo de la detección de noticias falsas al proporcionar evidencia empírica sobre la efectividad de diversos enfoques de machine learning y deep learning en la identificación precisa de Fake News en comparación con investigaciones anteriores.
INTRODUCCIÓN
Desde el inicio de los tiempos el ser humano ha buscado la forma de comunicarse con el resto, ya sea por sonidos, gestos o alguna manera más gráfica como dibujos o símbolos, teniendo como problema su susceptibilidad a sesgos intrínsecos a cada individuo. En el contexto de las comunicaciones nos encontramos con las noticias falsas o Fake News (FN) cuya intención principal, entre otras, es generar incertidumbre, desinformación e influir en la opinión de quien las lee 1.
En el último tiempo, a raíz del estallido social registrado en octubre del 2019 en Chile y a nivel mundial con el Covid-19, la cantidad de FN registradas en redes sociales han aumentado considerablemente, sumado al hecho que la credibilidad de los medios oficiales ha disminuido y por lo tanto su consumo 2. Por otra parte, las redes sociales como Facebook o WhatsApp han aumentado en relación a su consumo y confianza (2.
De acuerdo al estudio "On Deception and Deception Detection: Content Analysis of Computer-MediatedStated Beliefs" realizado por Victoria Rubin (3, los seres humanos tenemos una precisión de un 54% al discernir la veracidad de un artículo. Ante esto, los algoritmos relacionados al lenguaje natural son idóneos para el análisis y reconocimiento de la veracidad de una publicación.
En este artículo se comparan dos enfoques de machine learning: el enfoque clásico cuya etapa de selección de características (feature selection) es fundamental para obtener mejores resultados, en contraste al enfoque de deep learning donde la complejidad interna del modelo se encarga de codificar y decodificar las características que no son obvias. El contraste de ambos enfoques surge a partir de los resultados que se evidencian en el estado del arte, donde posicionan a los algoritmos de deep learning con resultados prometedores en tareas de clasificación; sin embargo, estos algoritmos funcionan como una caja negra, es decir, se desconoce la forma en la cual está clasificando. Por otra parte, los algoritmos de machine learning tradicionales generalmente no ofrecen los mejores resultados y los modelos que generan suelen tener problemas de escalabilidad; sin embargo, si es posible inferir como está clasificando.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:464 kb