Title Image

Blog

Mapa con elementos de Openstreetmap que tienen etiqueta Wikidata

Enriquecer los datos de OpenStreetMap con el conocimiento de Wikidata

  |   Tratamiento de datos, Uncategorized

Desde hace tiempo en Alter Geosistemas estamos ayudando a acercar dos de los proyectos de datos abiertos más grandes que hoy existen: OpenStreetMap y Wikidata.

Wikidata es la base de datos documental estructurada de fuentes colaborativas mantenida por la Fundación Wikimedia.
Actualmente se apróxima a los 90 millones de entradas con datos de dominio público y una gran parte es información de carácter geográfico.

Wikidata añade estructura a los datos de Wikipedia, y proporciona la identificación y las conexiones entre ellos en todas las versiones de Wikipedia en diferentes idiomas. Esto hace que sea posible extraer información de un artículo de Wikipedia de una manera fiable. Así, para una entrada en la versión francesa de la Wikipedia, Wikidata crea un identificador QDI único que es común para la misma entrada en cada uno de los idiomas de resto de las versiones locales de Wikipedia. Cada dato tiene una estructura de pares de propiedades y valores llamadas declaraciones que le define y le conectan con otros datos, creando relaciones.

En este diagrama de ejemplo puedes ver la estructura de un elemento de Wikidata con su identificador único (un número con una Q de prefijo). Cada elemento o término tiene una lista de declaraciones con la forma SUJETO – PREDICADO – OBJETO (por ejemplo, Douglas Adams se educó en el St John’s College). En Wikidata, el sujeto se denomina elemento y el predicado se llama propiedad. Cada propiedad tiene un valor, que puede ser de nuevo un elemento, un texto, un número, fecha, coordenadas o dirección URL entre otros. Fuente: Wikipedia.

El esfuerzo en estructurar la información de cada elemento representa una característica extremadamente útil. Así, por ejemplo, para todas las localidades importantes del mundo tenemos datos sobre su población, o información relacionada con su historia, geografía, política o administración. A estas propiedades se le añade otro valor: las etiquetas multilingües. Con ellas, es posible crear mapas de cualquier parte del mundo con nombres de lugares traducidos a la mayoría de los idiomas.

Si vinculamos estos datos a los más de 1,8 millones de elementos geográficos con nombres únicos mapeados con precisión a nivel de calle en el proyecto OpenStreetMap, el resultado es el mapa espacial más grande de conocimiento humano jamás creado.

Cada punto en el mapa representa una localidad etiquetada en OpenStreetMap como city, town o village y con identificadores Wikidata vinculados. En total son más de 450 mil poblaciones con acceso a datos estructurados de carácter geográfico, demográfico, histórico, económico o político. Fuente: Alter Geosistemas (2020).

Debido a la capacidad única de Wikidata para conectar lugares a una gran cantidad de datos con licencia gratuita es una vía muy interesante para enriquecer nuestros datos geograficos almacenados en un shapefile o cualquier base de datos geoespacial a través de SPARQL.

SPARQL es un lenguaje de consulta utilizado para recuperar datos almacenados como RDF (Resource Description Framework) y está estandarizado por el W3C. Con él podemos consultar datos enlazados y también usarlo para extraer datos de Wikidata. La sintaxis es similar a SQL aunque con algunas diferencias, como evitar las cláusulas JOIN ya que pueden ralentizar las consultas.

En esta consulta de ejemplo realizada en SPARQL obtenemos como resultado una lista de todas las capitales de la Unión Europea con propiedades asociadas como su población, superficie, coordenadas de localización, nombre del alcalde, su partido de afilación, etc. Todas accesibles en Wikidata.

SELECT 
  ?countryLabel 
  ?capital ?capitalLabel
  ?headLabel
  ?membershipLabel
  ?population ?area ?medianIncome ?coordinate
WHERE {
  ?country wdt:P463 wd:Q458.
  ?country wdt:P36 ?capital.
  ?capital wdt:P6 ?head.
  OPTIONAL { ?capital wdt:P1082 ?population }
  OPTIONAL { ?country wdt:P3529 ?medianIncome }
  OPTIONAL { ?capital wdt:P2046 ?area }
  OPTIONAL { ?capital wdt:P625 ?coordinate }
  OPTIONAL { ?head wdt:P102 ?membership }
  
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}

Puedes probar esta consulta tú mismo aquí, al pulsar el botón Ejecutar consulta.

Etiqueta Wikidata en OpenStreetMap para la ciudad de París. Con el identificador QDI (Q90) ya tenemos una vinculación entre las dos grandes bases de datos públicas para este elemento.

Las etiquetas Wikidata de OpenStreetMap hacen posible que el software que utiliza datos de OpenStreetMap proporcione experiencias de usuario más ricas basadas en Wikidata.
Poder realizar consultas relacionando estas dos bases de datos proporciona la oportunidad de obtener descubrimientos que no serían posibles con búsquedas normales en nuestro motor de búsqueda favorito. Esto abre nuevas y emocionantes posibilidades para hacer ciencia de datos y análisis exploratorio de datos y una nueva forma fascinante de aprender sobre las relaciones y los hallazgos curiosos en nuestro conocimiento humano acumulado.