Title Image

Blog

Mapa con elementos de Openstreetmap que tienen etiqueta Wikidata

Enriquecer los datos de OpenStreetMap con el conocimiento de Wikidata

  |   Tratamiento de datos, Uncategorized

Desde hace tiempo en Alter Geosistemas estamos ayudando a acercar dos de los proyectos de datos abiertos más grandes que hoy existen: OpenStreetMap y Wikidata.

Wikidata es la base de datos documental estructurada de fuentes colaborativas mantenida por la Fundación Wikimedia.
Actualmente se apróxima a los 90 millones de entradas con datos de dominio público y una gran parte es información de carácter geográfico.

Wikidata añade estructura a los datos de Wikipedia, y proporciona la identificación y las conexiones entre ellos en todas las versiones de Wikipedia en diferentes idiomas. Esto hace que sea posible extraer información de un artículo de Wikipedia de una manera fiable. Así, para una entrada en la versión francesa de la Wikipedia, Wikidata crea un identificador QDI único que es común para la misma entrada en cada uno de los idiomas de resto de las versiones locales de Wikipedia. Cada dato tiene una estructura de pares de propiedades y valores llamadas declaraciones que le define y le conectan con otros datos, creando relaciones.

En este diagrama de ejemplo puedes ver la estructura de un elemento de Wikidata con su identificador único (un número con una Q de prefijo). Cada elemento o término tiene una lista de declaraciones con la forma SUJETO – PREDICADO – OBJETO (por ejemplo, Douglas Adams se educó en el St John’s College). En Wikidata, el sujeto se denomina elemento y el predicado se llama propiedad. Cada propiedad tiene un valor, que puede ser de nuevo un elemento, un texto, un número, fecha, coordenadas o dirección URL entre otros. Fuente: Wikipedia.

El esfuerzo en estructurar la información de cada elemento representa una característica extremadamente útil. Así, por ejemplo, para todas las localidades importantes del mundo tenemos datos sobre su población, o información relacionada con su historia, geografía, política o administración. A estas propiedades se le añade otro valor: las etiquetas multilingües. Con ellas, es posible crear mapas de cualquier parte del mundo con nombres de lugares traducidos a la mayoría de los idiomas.

Si vinculamos estos datos a los más de 1,8 millones de elementos geográficos con nombres únicos mapeados con precisión a nivel de calle en el proyecto OpenStreetMap, el resultado es el mapa espacial más grande de conocimiento humano jamás creado.

Cada punto en el mapa representa una localidad etiquetada en OpenStreetMap como city, town o village y con identificadores Wikidata vinculados. En total son más de 450 mil poblaciones con acceso a datos estructurados de carácter geográfico, demográfico, histórico, económico o político. Fuente: Alter Geosistemas (2020).

Debido a la capacidad única de Wikidata para conectar lugares a una gran cantidad de datos con licencia gratuita es una vía muy interesante para enriquecer nuestros datos geograficos almacenados en un shapefile o cualquier base de datos geoespacial a través de SPARQL.

SPARQL es un lenguaje de consulta utilizado para recuperar datos almacenados como RDF (Resource Description Framework) y está estandarizado por el W3C. Con él podemos consultar datos enlazados y también usarlo para extraer datos de Wikidata. La sintaxis es similar a SQL aunque con algunas diferencias, como evitar las cláusulas JOIN ya que pueden ralentizar las consultas.

En esta consulta de ejemplo realizada en SPARQL obtenemos como resultado una lista de todas las capitales de la Unión Europea con propiedades asociadas como su población, superficie, coordenadas de localización, nombre del alcalde, su partido de afilación, etc. Todas accesibles en Wikidata.

SELECT 
  ?countryLabel 
  ?capital ?capitalLabel
  ?headLabel
  ?membershipLabel
  ?population ?area ?medianIncome ?coordinate
WHERE {
  ?country wdt:P463 wd:Q458.
  ?country wdt:P36 ?capital.
  ?capital wdt:P6 ?head.
  OPTIONAL { ?capital wdt:P1082 ?population }
  OPTIONAL { ?country wdt:P3529 ?medianIncome }
  OPTIONAL { ?capital wdt:P2046 ?area }
  OPTIONAL { ?capital wdt:P625 ?coordinate }
  OPTIONAL { ?head wdt:P102 ?membership }
  
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}

Puedes probar esta consulta tú mismo aquí, al pulsar el botón Ejecutar consulta.

Etiqueta Wikidata en OpenStreetMap para la ciudad de París. Con el identificador QDI (Q90) ya tenemos una vinculación entre las dos grandes bases de datos públicas para este elemento.

Las etiquetas Wikidata de OpenStreetMap hacen posible que el software que utiliza datos de OpenStreetMap proporcione experiencias de usuario más ricas basadas en Wikidata.
Poder realizar consultas relacionando estas dos bases de datos proporciona la oportunidad de obtener descubrimientos que no serían posibles con búsquedas normales en nuestro motor de búsqueda favorito. Esto abre nuevas y emocionantes posibilidades para hacer ciencia de datos y análisis exploratorio de datos y una nueva forma fascinante de aprender sobre las relaciones y los hallazgos curiosos en nuestro conocimiento humano acumulado.



Este sitio web utiliza cookies propias y de terceros para su correcto funcionamiento y visualización por parte del usuario, así como la recogida de estadísticas. Si continúa navegando, consideramos que acepta su uso. Más información

Las opciones de cookie en este sitio web están configuradas para "permitir cookies" con el fin de ofrecerle una mejor experiencia de navegación. Si sigue utilizando este sitio web sin cambiar sus opciones o haces clic en "Aceptar" estarás consintiendo las cookies de este sitio. Las cookies son archivos que se pueden descargar en su equipo a través de las páginas web. Son herramientas que tienen un papel esencial para la prestación de numerosos servicios de la sociedad de la información. Entre otros, permiten a una página web almacenar y recuperar información sobre los hábitos de navegación de un usuario o de su equipo y, dependiendo de la información obtenida, se pueden utilizar para reconocer al usuario y mejorar el servicio ofrecido.

La web altergeosistemas.com utiliza Google Analytics, un servicio de analítica web desarrollada por Google, que permite la medición y análisis de la navegación en las páginas web. A través de la analítica web se obtiene información relativa al número de usuarios que acceden a la web, el número de páginas vistas, la frecuencia y repetición de las visitas, su duración, el navegador utilizado, el operador que presta el servicio, el idioma, el terminal que utiliza. Información que posibilita un mejor y más apropiado servicio por parte de este portal. Google Analytics no se usa para localizar o recabar información personal identificable de los visitantes del sitio.

Usted puede restringir, bloquear o borrar las cookies de esta o cualquier otra página web utilizando su navegador. En cada navegador la operativa es diferente, la función de "Ayuda" le mostrará cómo hacerlo. Además, también puede gestionar el almacén de cookies en su navegador a través de herramientas especiales.

Cerrar