Van experiment naar werking: Difference between revisions

From Doelgericht Digitaal Transformeren
No edit summary
No edit summary
Line 16: Line 16:


== Ingest van gecombineerde personen, organisaties en venues ==
== Ingest van gecombineerde personen, organisaties en venues ==


=== Samenstellen van de lijst ===
=== Samenstellen van de lijst ===
Line 49: Line 47:


==== Personen en organisaties ====
==== Personen en organisaties ====
===== Aliassen =====


==== Venues en organisaties ====
==== Venues en organisaties ====


== Ingest van activiteiten ==
== Ingest van activiteiten ==

Revision as of 07:51, 11 April 2022

Begin april hebben we het data model voor actoren en activiteiten min of meer op punt, gebaseerd op wat ervaring en enkele voorbeelden. Tijd om te testen of dit nu ook echt werkt. De eerste stap daarvoor is om enkele basics op punt te krijgen, bv. locatiedata. Maar daarna moeten we de "actors" invoeren. En dat vergt een combinatiestap uit de verschillende legacy databanken.

Ingest van Belgische gemeenten en steden

Op basis van ergens een lijst heb ik op 9 april 2022 belgische gemeenten en steden via quickstatements ingested. Daarbij moet er ergens iets fout gelopen zijn, want een aantal gemeenten zitten er dubbel in:

SELECT ?landLabel ?itemLabel (GROUP_CONCAT(?item) as ?itemURLs) (count(?itemLabel) as ?itemLabelCount) {
 ?item <http://osloddt.wiki.opencura.com/prop/direct/P1> <http://osloddt.wiki.opencura.com/entity/Q229>;
       <http://osloddt.wiki.opencura.com/prop/direct/P20> ?land.
 SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],nl,en" . }
}
GROUP BY ?landLabel ?itemLabel
HAVING (count(?itemLabel) > 1)

Dit is dus een TODO om die waar nodig te mergen.

Ingest van gecombineerde personen, organisaties en venues

Samenstellen van de lijst

Uit de legacy databanken

Uit havelovewilltravel

Quickstatements

Opkuis

Een massa import gaat gepaard met ruis. Er is dus heel wat opkuiswerk nodig. We denken meteen aan de kunsthogescholen en de cultuurcentra, maar in de legacy databanken zaten ook heel wat personen of organisaties dubbel. Dan is er ook het oude zeer van organisaties die ook venues zijn in de legacy databanken, en die we nu bij mekaar brengen.

Kunsthogescholen

Cultuurcentra

Cultuurcentra hebben vaak namen die beginnen met CC of die het woord "cultuurcentrum" bevatten. Deze query kan die helpen vinden:

SELECT DISTINCT ?itemLabel (GROUP_CONCAT(?item) AS ?items)
 WHERE {
   ?item <http://osloddt.wiki.opencura.com/prop/direct/P1> ?type.
   ?item rdfs:label ?itemLabel .  
   FILTER (CONTAINS(?itemLabel, "CC") || CONTAINS(?itemLabel, "Cultuurcentrum")) .
   SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],nl,en" . }
 }
GROUP BY ?itemLabel

Daarnaast kunnen we ook "top down" vertrekken vanuit een lijst van cultuurcentra, bv. https://nl.wikipedia.org/wiki/Lijst_van_cultuurcentra_in_Vlaanderen of https://cult.be/netwerk

Personen en organisaties

Aliassen

Venues en organisaties

Ingest van activiteiten