Het delen van data en vertrouwelijkheid

13 apr 2021

In de praktijk komt het veel voor dat partijen machine data willen delen. Een van de problemen waar zij tegenaan lopen, is de vertrouwelijkheid van deze data. Zij willen hun data beschermen en voorkomen dat concurrenten de machine data naar hen kunnen terug herleiden, aangezien deze data concurrentiegevoelig is. Hoe kan dit juridisch en technisch geregeld worden?

Deze vraag zal beantwoord worden aan de hand van een casus.

Casus

In deze casus nemen wij drie industriële ondernemingen als voorbeeld: Jupiter BV, Mercurius BV en Pluto BV. Zij willen de data van hun machines met elkaar gaan delen. De reden hierachter is dat zij, door toegang te krijgen tot elkaars data, hun eigen processen kunnen verbeteren en hun machines efficiënter kunnen onderhouden. Ze willen echter niet dat de andere partijen weten dat de data van hen afkomstig is. De data moet dus geanonimiseerd worden. Er zijn een aantal manieren om dit doel te bereiken.

Mogelijkheden

Er zijn een aantal mogelijkheden voor het veilig en vertrouwelijk delen van data. Deze mogelijkheden zijn:

I. Het creëren van één grote dataset

Als alle bedrijven dezelfde (soort) machines gebruiken die vergelijkbare data genereren, dan kan een derde partij deze data combineren tot één grote dataset. Hierin zou het voor ieder bedrijf wellicht nog mogelijk zijn haar eigen data te identificeren, maar het wordt moeilijk de data van de andere bedrijven te herkennen. De derde partij die als vertrouwde tussenpersoon handelt, zal wel uitdrukkelijk moeten letten op het feit dat er geen identificerende informatie achterblijft in de dataset. Zo moet men de individuele machines waarschijnlijk nog wel van elkaar kunnen scheiden, maar wanneer alle machines van Jupiter BV worden gemarkeerd met de letter “J”, dan is de data afkomstig van deze machines niet anoniem. Een extra maatregel waarmee het moeilijker wordt om de eigen data terug te vinden is door op alle metingen een onzekerheidsmarge toe te voegen. Hierdoor kan ieder bedrijf niet direct haar eigen data weer isoleren.

II. Het scheiden van de verschillende machines binnen de dataset

Wanneer bedrijven verschillende soorten machines gebruiken, maar wel data willen delen, dan wordt het lastiger dit te doen zonder dat ieder bedrijf te identificeren is. Als het voor het gebruik van de data niet relevant is van welke machine bepaalde data komt, maar alleen dat de data afkomstig is van verschillende machines, dan kan een derde partij zorgen dat de data van de verschillende machines gescheiden blijven van elkaar. Ook hier kan deze derde partij een mate van onzekerheid aan de gegevens toevoegen om te voorkomen dat men exacte gegevens met concurrenten deelt.

III. Onderling afspraken maken

Wanneer geen sprake is van een van de twee bovenstaande scenario’s, dan is het voor ondernemingen mogelijk om gezamenlijk af te spreken welk deel van de data zij onderling delen. Dit kunnen zij afspreken in een Data Sharing Agreement. Hierdoor zal meestal een mate van nauwkeurigheid verloren gaan, zoals de informatie over de individuele machines. Hier staat echter tegenover dat de data moeilijker te herleiden is. Ook hier zal waarschijnlijk wel een derde partij nodig zijn die de data combineert. Omdat de bedrijven slechts een deel van hun data zullen delen, is het  belangrijk dat  de gecombineerde dataset duidelijk aangeeft welke data ontbreken. Als men bijvoorbeeld alle modelnummers van de verschillende machines weg heeft gehaald, dan is het niet direct duidelijk voor een nieuwe gebruiker van de gecombineerde dataset dat de data afkomstig is van verschillende machines. Als er bij de data een overzicht zit van de informatie die niet gedeeld wordt, dan kan men daar later rekening mee houden.

Conclusie

Het delen van machine data klinkt gemakkelijk, maar op het vlak van vertrouwelijkheid kunnen moeilijkheden bestaan. Om de vertrouwelijkheid van data te waarborgen is het belangrijk dat de data geanonimiseerd wordt. Hoe men dit het beste kan doen, is afhankelijk van de soort data die gedeeld zal worden. Wanneer de gedeelde data afkomstig is van vergelijkbare machines, zal het in de regel gemakkelijk zijn deze data in één grote dataset op anonieme wijze te delen.  In andere omstandigheden zal misschien niet alle data gedeeld kunnen worden. Voor iedere situatie is het wel van belang dat iedere onderneming die haar data deelt, dezelfde standaarden gebruikt bij het anonimiseren van de data. Ieder identificeerbaar verschil zou namelijk de bron van de data kunnen weggeven.

Jos van der Wijst