DUO lanceert synthetische dataset
DUO heeft als uitvoerende organisatie op het gebied van onderwijs veel data. Van basisschoolleerlingen tot masterstudenten wordt er door DUO data verzameld. Omdat dit persoonsgegevens zijn, en vaak ook van kinderen, deelde DUO deze data niet op leerling niveau met onderzoekers. Er is uiteraard wel al data beschikbaar op school niveau, zoals de hoeveelheid leerlingen per onderwijsniveau. Daar komt nu verandering in. DUO geeft onderzoekers nu de mogelijkheid om een onderzoeksvraag op te sturen. Mocht de vraag passen bij de beschikbare data, dan krijgen de onderzoekers een synthetische dataset om hun onderzoek op te doen.
Wat is synthetische data?
Synthetische data is data die is gemaakt op basis van de onderliggende eigenschappen van een dataset. Met behulp van statistiek en machine learning wordt er gekeken naar de essentiële kenmerken van de individuen in de originele dataset. Op basis van deze essentiële kenmerken worden er nieuwe, fictieve individuen gegenereerd. Hierdoor zijn de originele individuen niet meer te herkennen, waardoor de dataset geen persoonsgegevens meer bevat. Wel blijven de relaties tussen de verschillende kenmerken bewaard. Hierdoor kunnen onderzoekers de data nog steeds gebruiken voor hun onderzoek. DUO biedt zelfs aan om de aanpak van de onderzoekers nog te verifiëren op de echte data.
Welke data heeft DUO dan?
DUO is betrokken bij al het reguliere onderwijs in Nederland, van de kinderopvang tot aan de universiteit. Hierdoor heeft DUO veel verschillende soorten data. Een kort overzicht:
- Achtergrond kenmerken van alle leerlingen;
- Samenstelling van scholen;
- Resultaten van eindtoetsen en examens;
- Studierichtingen en duur van de studie op het MBO, HBO en de universiteit.
Daarnaast is DUO betrokken bij de studiefinanciering, inburgering en het bijhouden van alle verleende diploma’s.
Als onderzoekers deze data op leerling niveau kunnen onderzoeken dan biedt dit veel mogelijkheden. Er kan onderzoek worden gedaan naar het hele onderwijssysteem, het onderwijs binnen een instelling of juist naar de loopbaan van individuen.
Wat kan ik ermee?
De meeste lezers van dit artikel zullen geen onderwijswetenschappers zijn. Deze actie van DUO geeft voor alle organisaties die veel persoonsgegevens beheren waarop onderzoek kan worden gedaan een goed voorbeeld. Het is veel makkelijker en veiliger om synthetische data te delen en dan eventueel de resultaten te valideren. De AVG is niet van toepassing op de synthetische data en er is geen gevaar voor een datalek. Als private partij kan synthetische data ook nuttig zijn bij het delen van data.
Voor vragen over het toepassen van synthetische data kunt u contact opnemen met Jos van der Wijst.