Uso de lógica difusa como estrategia para evaluar la confianza y accesibilidad de los DataSet publicados en SPARQL Endpoints
Use of fuzzy logic as a strategy to evaluate trust and accessibility of DataSet published in SPARQL Endpoints
La web semántica ha proporcionado herramientas como Linked Data, la cual ha permitido adelantar procesos de vinculación de datos abiertos. De cara a la creciente publicación de datos abiertos, se encuentran los retos de calidad de los datos vinculados, requerimientos vitales para el beneficio de los consumidores que deseen utilizar los datos publicados. Para abordar estos retos, se han generado modelos y herramientas que permiten evaluar la calidad de los datos. Una gran parte de estas herramientas basan su quehacer en la medición de variables haciendo uso de modelos matemáticos tradicionales, restringiendo la valoración misma de la calidad. Este artículo se orienta en proponer un método de evaluación de datos abiertos bajo especificaciones Linked Open Data, publicados en SPARQL Endpoints, mediante la implementación de un modelo basado en lógica difusa. Este modelo permitirá comparar los modelos tradicionales de evaluación sin la necesidad de restringir los aspectos de calidad con los que se puede medir. Finalmente se presentan los resultados obtenidos y trabajos futuros.
1. Introducción
Tecnologías de la web semántica, tales como Linked Data, soportada sobre la filosofía de Open Data, han venido incursionando cada vez con más fuerza en los procesos de publicación, distribución y consumo de datos en la web [1]. Haciendo uso de dichas tecnologías, el cargue y actualización de datos en la web se ha vuelto una labor un poco más fácil. Estas actividades pueden ser realizadas por cualquier tipo proveedor, sea este individuos, pequeños grupos de personas, organizaciones educativas, sitios de redes sociales e incluso organismos gubernamentales [2]. Dada la gran variedad de proveedores de datos, la vinculación de datos abiertos ha crecido de manera exponencial, pasando de 12 DataSet publicados en 2007, a cerca de 300 en 2011, y 9,960 DataSet en 2016. Datos acumulados de tres de las principales colecciones de DataSet disponibles al público: data.gov, publicdata.eu y datahub.io [3].
Con este crecimiento de Linked Open Data (LOD), surge la necesidad de establecer estrategias o herramientas que permitan evaluar y gestionar la calidad de los datos publicados en la web. Lo anterior dado que en estudios como [4] y [5] la información proporcionada por la mayoría de los recursos publicados en la web no posee una estructura adecuada para el proceso de vinculación, además de presentar desafíos en cuanto a información relevante para ser consultada sobre los recursos vinculados.
Con base en estos desafíos, diferentes investigaciones han identificado variables a evaluar en los procesos de vinculación de datos, tales como seguridad, estabilidad, rapidez y precisión [6]. Teniendo en cuenta que la calidad es un concepto muy subjetivo, no se puede definir de una sola manera por un simple juicio [2, 6]. Bajo este contexto, Tim Berners-Lee estableció un esquema técnico de publicación LOD en 2011 basado en 4 principios [7]:
- Usar URI para nombrar cosas u objetos conceptuales.
- Usar URI HTTP que sean interpretables por humanos y máquinas.
- Proveer información útil acerca de cada URI en algún estándar de la web (p. ej. RDF).
- Crear links entre URI.
Recursos
-
Formatopdf
-
Idioma:español
-
Tamaño:335 kb