Data kwaliteit projecten: Difference between revisions

From Doelgericht Digitaal Transformeren
 
(10 intermediate revisions by the same user not shown)
Line 11: Line 11:
Om deze data kwaliteit issues aan te pakken definiëren we een aantal types van projecten die uitgevoerd kunnen worden.
Om deze data kwaliteit issues aan te pakken definiëren we een aantal types van projecten die uitgevoerd kunnen worden.


== Data kwaliteit projecten ==
== Types van data kwaliteit projecten ==


=== Kruisverbanden project ===
=== Kruisverbanden project ===
Line 17: Line 17:


==== Week 1 ====
==== Week 1 ====
* Dag 1: Bepalen van een scope, bv. alle items van het type "Uitvoerder" die in de afgelopen 12 maanden zijn toegevoegd aan de wikibase en nog geen wikidata Identifier hebben. (Of: items toegevoegd aan musicbrainz met relatie aan Vlaanderen, en wiens musicbrainz id nog niet in de wikibase zit, ...)
* Dag 1: Bepalen van een scope, bv. alle items van het type "Uitvoerder" die in de afgelopen 12 maanden zijn toegevoegd aan de wikibase en nog geen wikidata Identifier hebben. (Of: items toegevoegd aan musicbrainz met relatie aan Vlaanderen, en wiens musicbrainz id nog niet in de wikibase zit, de 100 meest verlinkte uitvoerders, ...)
* Dag 2: Overzicht van de hoeveelheid items, opdelen van het werk in haalbare hoeveelheden per dag, eventueel scope herzien.
* Dag 2: Overzicht van de hoeveelheid items, opdelen van het werk in haalbare hoeveelheden per dag, eventueel scope herzien.
* Dag 3-5: Eerste poging om kruisverbanden toe te voegen aan de items.
* Dag 3-5: Eerste poging om kruisverbanden toe te voegen aan de items.
Line 26: Line 26:


==== Week 3 ====
==== Week 3 ====
* repeat of week 2
* Herhaling van week 2


==== Week 4 ====
==== Week 4 ====
Line 83: Line 83:
* Dag 2-4: verrijkings-edits doorvoeren
* Dag 2-4: verrijkings-edits doorvoeren
* Dag 5: geplande eindpunt bereiken, of herzetten; documenteren van het gevoerde werk.
* Dag 5: geplande eindpunt bereiken, of herzetten; documenteren van het gevoerde werk.
== Concrete projecten ==
=== In te plannen ===
==== Weesitems ====
Er zouden eigenlijk geen items mogen zijn die niet met andere items gekoppeld zijn: https://osloddt.wikibase.cloud/w/index.php?title=Special:DeadendPages&limit=500&offset=0 De lijst op die pagina moet leeg zijn, door eventueel items te verwijderen of te koppelen.
==== Deduplicatie na ingest ====
Door bij het ingesten gegevens over Uitvoerders, Organisatoren, Locaties, Plaatsen, Rollen en Disciplines uit verschillende fysiek aparte databanken bij elkaar te brengen zijn er duplicaten ontstaan. Die duplicaten moeten we herkennen, bv. op basis van gelijkaardige labels, en ze dan "mergen". Het zal dan zijn dat er twee of meerdere Kunstenpunt legacy URLs gekoppeld zijn. Waar mogelijk kunnen we ook 1 verwijzing naar wikidata toevoegen.
Voorbeelddata:
* [[Item:Q520790|Esther Venrooy gebaseerd op MCV]] en [[Item:Q150454|Esther Venrooy gebaseerd op data.kunsten.be]]
* ...
De logische volgorde om dit aan te pakken is:
* Landen
* Locaties
* Actoren (uitvoerders én organisatoren)
* Locaties ("venues"), waarbij we moeten opletten dat we eventueel zelfs entiteiten splitsen, zodat we een apart Q-nummer hebben voor de "architecturale entiteiten" en een apart Q-nummer voor de Actoren, bv. Kaaitheater als gebouw versus Kaaitheater als Uitvoerder of Organisator. Daarna moeten we ook controleren of er geen Actoren gebruikt worden als Locatie voor een activiteit, en die dus vervangen door het overeenkomstige Q-nummer van het type Locatie. >>> DIT IS EEN GROOT WERK, zie hieronder, een aparte heading ervoor.
* Rollen
* Disciplines
* Activiteiten
==== Aanvullingen na ingest ====
* Adresgegevens van venues > of die net overlaten aan CJI? Wat houden we bij in onze wikibase, en wat elders?
* Geboortedatum en -plaatsen (inclusief sterfdatum en -plaats) van mensen en organisaties uit data.kunsten.be > GDPR?
* Taalinfo bij podiumproducties > op niveau van productie
* Relaties tussen personen, organisaties en venues (data.kunsten.be + muziekcentrum.kunsten.be)
* Relaties tussen releases > ReleaseGroup introduceren?
* Files en images
* Bioteksten > naar pagina's, en dan ook een sitekoppeling
* ...
==== Verwijderingen na ingest ====
* in de agent types is er veel ruis geslopen, met testcategorieën of irrelevante namen.
* door soms hickups in de ingest zijn er soms items met (versie X) in de description die niet noodzakelijk duplicates zijn, en die dus wegmogen
* ...
==== Linked data ====
* Data.kunsten.be legacy urls in wikipedia en wikidata? Hoe hiermee omgaan? Op welk domein zetten we deze wikibase?
* Wikidata identifiers > goed afspreken dat onze policy is dat wij in onze wikibase 1 externe identifier voorzien, namelijk die naar wikidata. En dat het dan aan wikidata is om de spin in het web te zijn, niet aan onze wikibase.
* Vraag ook naar federated property, query om dit te kunnen vangen?
* hoe omgaan met het verschil in modelleren tussen OSLO en wikidata op vlak van "gebracht door" > in OSLO generieke property, die via een qualifier specifieker gemaakt kan worden met een rol als "producent" of "acteur" <> in Wikidata zit de rol in de property (https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure#Contributors).
* ...
==== Dubbelen van Organisatoren en Locaties ====
Er zijn heel wat items in de databank die we moeten verdubbelen om zowel een Organisator te zijn én dan apart een Locatie. Het gaat om Cultuurcentra, kunstencentra, kunsthallen, concertzalen, galeries, ... Dit is parallel aan een grote operatie die ook in wikidata plaatsvond: https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure/Data_modelling_issues/organizations en vooral ook https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure/Data_modelling_issues#Items_confounding_architectural_structures_and_organizations
==== Werkobjecten uit muziekcentrum als composities ====
De werkobjecten uit MCV hebben geen werktype meegekregen, die moeten allemaal het type Compositie ofzo krijgen?
=== In uitvoer ===
==== OSLO Mapping ====
Het datamodel in deze wikibase is compatibel met OSLO Cultuurparticipatie. Zie ook https://osloddt.wikibase.cloud/wiki/Mapping_oslo. Om dit expliciet te maken moeten de properties en de core items gelinkt worden met het OSLO Cultuurparticipatievocabularium, of andere ontologieën. Zie de mappings alvast via [[Mapping_oslo||hier]]
* Linken van core items
* Linken van Landen, steden, ... (Plaatsen)
* Linken van realisator types
* Linken van activiteit types
* Linken van Formats
* Linken van Concepts
* Linken van properties
* ...
=== Uitgevoerd ===

Latest revision as of 13:55, 18 August 2023

De gegevens in deze wikibase komen uit de legacy databanken van Kunstenpunt. Er is werk om de kwaliteit op het allerhoogste niveau te krijgen.

  • Landen en steden: hergebruiken, verlinken, zelf in orde brengen?
  • Entiteiten van het type Actor: deze lijst kan nog dubbels bevatten, en in het beste geval hebben op termijn alle entiteiten een ID die verwijst naar wikidata of een andere autoriteit.
  • Entiteiten van het type Activiteit: hier is ongetwijfeld ook nog ruis in te vinden > beurzen of groepstentoonstellingen die dubbel ingevoerd zijn, festivals die meermaals erin zitten, ...
  • Entiteiten van het type Rol: hier is een wildgroei in gebeurd doorheen de jaren, ook mogelijke dubbels door de samenvoeging van muziek en podiumkunsten, en moet opgekuist worden
  • Groepstentoonstellingen nakijken op dubbels, en kunstenaars toevoegen/mergen
  • alles met (versie X) in de description
  • ...

Om deze data kwaliteit issues aan te pakken definiëren we een aantal types van projecten die uitgevoerd kunnen worden.

Types van data kwaliteit projecten

Kruisverbanden project

Met de bedoeling om de linken met wikidata, musicbrainz, ... en discogs, operabase, ... strak te houden.

Week 1

  • Dag 1: Bepalen van een scope, bv. alle items van het type "Uitvoerder" die in de afgelopen 12 maanden zijn toegevoegd aan de wikibase en nog geen wikidata Identifier hebben. (Of: items toegevoegd aan musicbrainz met relatie aan Vlaanderen, en wiens musicbrainz id nog niet in de wikibase zit, de 100 meest verlinkte uitvoerders, ...)
  • Dag 2: Overzicht van de hoeveelheid items, opdelen van het werk in haalbare hoeveelheden per dag, eventueel scope herzien.
  • Dag 3-5: Eerste poging om kruisverbanden toe te voegen aan de items.

Week 2

  • Dag 1: evaluatie van de scope na eerste dagen van kruisverbanden leggen, eventueel scope herzien.
  • Dag 2-5: Kruisverbanden toevoegen aan de items

Week 3

  • Herhaling van week 2

Week 4

  • Dag 1: evaluatie van de scope, eventueel helder eindpunt voorzien dat als startpunt voor een volgend project kan dienen.
  • Dag 2-4: Kruisverbanden leggen
  • Dag 5: Eindpunt bereiken, documenteren.

Data aanvul project

Met de bedoeling om agenten (uitvoerders en organisatoren) ... en activiteiten van een afgelopen periode in kaart te brengen.

Week 1

  • dag 1: kennismaking wikibase
  • dag 2-3: met collega's overzicht maken van relevante toonplekken, festivals, wedstrijden, recensieplatformen, ... in Vlaanderen/Brussel en in afgebakende periode.
  • dag 4-5: opgesomde toonplekken, festivals, wedstrijden, recensie, ... toevoegen of updaten in wikibase

Week 2

  • dag 1: per opgesomde toonplek, festival, wedstrijd, ... de programmatie opzoeken, eventueel programma afprinten, brochure downloaden, ...
  • dag 2: genoemde artiesten, bands, ensembles, collectieven, gezelschappen, ... controleren in wikibase; waar nodig toevoegen
  • dag 3: eventueel continuering van dag 2
  • dag 4: concrete "culturele activiteiten" (concerten, tentoonstellingen, voorstellingen, ...) in de opgesomde toonplekken, ... toevoegen
  • dag 5: continuering van dag 4

Week 3

  • dag 1-5: per recent genoemde artiest / ... (cf. week 2, dag 2) culturele activiteiten in buitenland opzoeken en toevoegen

Week 4

  • dag 1-5: continuering van week 3
  • bij tijd over:
    • residentiebeurzen en projectsubsidies checken

Data verrijking project

Met bedoeling om bestaande agenten (uitvoerders en organisatoren) en activiteiten verder aan te vullen op vlak van juistheid, volledigheid, ...

Vertrekken vanuit activiteiten:

  • groepstentoonstellingen detecteren en bij mekaar zetten
  • tracks op releases
  • speelreeks van een podiumproductie
  • aanvullen van een festival
  • tournees
  • ...

Week 1

  • Dag 1: bepalen van de scope, op basis van een activiteittype, periode, regio, ... Start van de documentatie (projectpagina, ...)
  • Dag 2: ophalen van mogelijk betroffen items, haalbaarheid inschatten, opdeling van hoeveelheid over 5 dagen gedurende vier weken
  • Dag 3-5: Eerste verrijkings-edits

Week 2

  • Dag 1: evaluatie van de scope op basis van de edits van vorige week; eventueel scope bijstellen
  • Dag 2-5: verrijkings-edits doorvoeren

Week 3

  • Herhaling van week 2

Week 4

  • Dag 1: evaluatie van de scope, eventueel scherp eindpunt definiëren en laatste planning juist zetten
  • Dag 2-4: verrijkings-edits doorvoeren
  • Dag 5: geplande eindpunt bereiken, of herzetten; documenteren van het gevoerde werk.

Concrete projecten

In te plannen

Weesitems

Er zouden eigenlijk geen items mogen zijn die niet met andere items gekoppeld zijn: https://osloddt.wikibase.cloud/w/index.php?title=Special:DeadendPages&limit=500&offset=0 De lijst op die pagina moet leeg zijn, door eventueel items te verwijderen of te koppelen.

Deduplicatie na ingest

Door bij het ingesten gegevens over Uitvoerders, Organisatoren, Locaties, Plaatsen, Rollen en Disciplines uit verschillende fysiek aparte databanken bij elkaar te brengen zijn er duplicaten ontstaan. Die duplicaten moeten we herkennen, bv. op basis van gelijkaardige labels, en ze dan "mergen". Het zal dan zijn dat er twee of meerdere Kunstenpunt legacy URLs gekoppeld zijn. Waar mogelijk kunnen we ook 1 verwijzing naar wikidata toevoegen.

Voorbeelddata:

De logische volgorde om dit aan te pakken is:

  • Landen
  • Locaties
  • Actoren (uitvoerders én organisatoren)
  • Locaties ("venues"), waarbij we moeten opletten dat we eventueel zelfs entiteiten splitsen, zodat we een apart Q-nummer hebben voor de "architecturale entiteiten" en een apart Q-nummer voor de Actoren, bv. Kaaitheater als gebouw versus Kaaitheater als Uitvoerder of Organisator. Daarna moeten we ook controleren of er geen Actoren gebruikt worden als Locatie voor een activiteit, en die dus vervangen door het overeenkomstige Q-nummer van het type Locatie. >>> DIT IS EEN GROOT WERK, zie hieronder, een aparte heading ervoor.
  • Rollen
  • Disciplines
  • Activiteiten

Aanvullingen na ingest

  • Adresgegevens van venues > of die net overlaten aan CJI? Wat houden we bij in onze wikibase, en wat elders?
  • Geboortedatum en -plaatsen (inclusief sterfdatum en -plaats) van mensen en organisaties uit data.kunsten.be > GDPR?
  • Taalinfo bij podiumproducties > op niveau van productie
  • Relaties tussen personen, organisaties en venues (data.kunsten.be + muziekcentrum.kunsten.be)
  • Relaties tussen releases > ReleaseGroup introduceren?
  • Files en images
  • Bioteksten > naar pagina's, en dan ook een sitekoppeling
  • ...

Verwijderingen na ingest

  • in de agent types is er veel ruis geslopen, met testcategorieën of irrelevante namen.
  • door soms hickups in de ingest zijn er soms items met (versie X) in de description die niet noodzakelijk duplicates zijn, en die dus wegmogen
  • ...

Linked data

  • Data.kunsten.be legacy urls in wikipedia en wikidata? Hoe hiermee omgaan? Op welk domein zetten we deze wikibase?
  • Wikidata identifiers > goed afspreken dat onze policy is dat wij in onze wikibase 1 externe identifier voorzien, namelijk die naar wikidata. En dat het dan aan wikidata is om de spin in het web te zijn, niet aan onze wikibase.
  • Vraag ook naar federated property, query om dit te kunnen vangen?
  • hoe omgaan met het verschil in modelleren tussen OSLO en wikidata op vlak van "gebracht door" > in OSLO generieke property, die via een qualifier specifieker gemaakt kan worden met een rol als "producent" of "acteur" <> in Wikidata zit de rol in de property (https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure#Contributors).
  • ...

Dubbelen van Organisatoren en Locaties

Er zijn heel wat items in de databank die we moeten verdubbelen om zowel een Organisator te zijn én dan apart een Locatie. Het gaat om Cultuurcentra, kunstencentra, kunsthallen, concertzalen, galeries, ... Dit is parallel aan een grote operatie die ook in wikidata plaatsvond: https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure/Data_modelling_issues/organizations en vooral ook https://www.wikidata.org/wiki/Wikidata:WikiProject_Performing_arts/Data_structure/Data_modelling_issues#Items_confounding_architectural_structures_and_organizations

Werkobjecten uit muziekcentrum als composities

De werkobjecten uit MCV hebben geen werktype meegekregen, die moeten allemaal het type Compositie ofzo krijgen?

In uitvoer

OSLO Mapping

Het datamodel in deze wikibase is compatibel met OSLO Cultuurparticipatie. Zie ook https://osloddt.wikibase.cloud/wiki/Mapping_oslo. Om dit expliciet te maken moeten de properties en de core items gelinkt worden met het OSLO Cultuurparticipatievocabularium, of andere ontologieën. Zie de mappings alvast via |hier

  • Linken van core items
  • Linken van Landen, steden, ... (Plaatsen)
  • Linken van realisator types
  • Linken van activiteit types
  • Linken van Formats
  • Linken van Concepts
  • Linken van properties
  • ...

Uitgevoerd