De ultieme gids voor data-anonimisering in Analytics

Published: August 30, 2018 Updated: December 20, 2018 Auteur Categorie Data Management, Data Privacy & Security

In het licht van de AVG zoeken veel bedrijven naar manieren om persoonlijke gegevens te verwerken en te gebruiken zonder de nieuwe regels te overtreden.

Dit is allemaal vrij moeilijk, omdat de AVG de manieren waarop persoonlijke gegevens kunnen worden verzameld en verwerkt aanzienlijk beperkt. Een van de grootste uitdagingen zijn de moeilijke voorwaarden die de verordening stelt voor het verkrijgen van de toestemming van een bezoeker.

De twee belangrijkste obstakels zijn:

1) onder de AVG moet de toestemming vrijelijk, specifiek, geïnformeerd en een ondubbelzinnige aanwijzing van de toestemming van de betrokkene zijn om de verwerking van persoonsgegevens die op hem of haar betrekking hebben als een geldige basis voor de verwerking van gebruikersgegevens te laten dienen.

Als u dieper in de details van AVG-toestemming wilt graven, raden wij u aan om deze blogpost te lezen:
How Consent Manager Can Help You Obtain GDPR-Compliant Consents From Your Users

2) de AVG heeft geen bepaling die het voortdurende gebruik van gegevens die zijn verzameld met behulp van niet-conforme methoden vóór de datum van inwerkingtreding van de AVG mogelijk maakt. In de praktijk betekent dit dat alle vóór de AVG verzamelde gegevens uit databanken moeten worden verwijderd als deze niet aan alle vereisten voldoen (en hoogstwaarschijnlijk voldoen deze gegevens hier niet aan).

Bovendien is de definitie van persoonlijke gegevens drastisch verbreed en omvat deze nu cookies en vele andere online identificatiemiddelen die worden gebruikt in webanalytics. U kunt hier meer over lezen:
What Is PII, non-PII, and Personal Data?

Elk bedrijf dat analysegegevens wil verwerken, moet zijn aanpak aanpassen om te voldoen aan de eisen van de nieuwe wet. We pakken dit onderwerp aan op onze blog hier:
How Will GDPR Affect Your Web Analytics Tracking?

Een andere optie is het zoeken naar andere rechtsgrondslagen die ons in staat stellen om gegevens te verwerken en historische analytische databanken te gebruiken zonder een grijs gebied in te gaan.

Een van de meest gunstige methoden lijkt data-anonimisering te zijn. Het kan een goede strategie blijken om de voordelen te behouden en tegelijkertijd de risico’s van het omgaan met gebruikersgegevens te verminderen.

De belangrijkste voordelen van data-anonimisering

Bedrijven die deze techniek gebruiken, kunnen profiteren van een zeer belangrijk feit – anonieme gegevens zijn geen persoonlijke gegevens voor de doeleinden van de AVG.

Volgens Grond 26 van de AVG: De gegevensbeschermingsbeginselen dienen derhalve niet van toepassing te zijn op anonieme gegevens, namelijk gegevens die geen betrekking hebben op een geïdentificeerde of identificeerbare natuurlijke persoon of op persoonsgegevens die zodanig anoniem zijn gemaakt dat de betrokkene niet of niet meer identificeerbaar is.

Op grond van de hierboven geciteerde bepaling vereisen anonieme gegevens geen aanvullende veiligheidsmaatregelen om de beveiliging ervan te waarborgen. Dit betekent onder andere dat:

  • u geen toestemming hoeft te krijgen om het te verwerken
  • u het kunt gebruiken voor andere doeleinden dan waarvoor het oorspronkelijk werd verzameld (u kunt het zelfs verkopen!)
  • het voor onbepaalde tijd kan worden opgeslagen
  • het internationaal kan worden geëxporteerd

Met andere woorden, u kunt het vrij gebruiken voor vrijwel elk doel dat u wilt.

Bovendien is data-anonimisering een uitstekende manier om te bewijzen dat u al het mogelijke doet om de veiligheid van de gegevens van uw gebruikers te waarborgen. Volgens gegevensbeschermingsdeskundigen kan deze techniek worden behandeld als:

  • onderdeel van een gegevensbescherming door ontwerp strategie
  • onderdeel van een risicominimaliseringsstrategie
  • een manier om inbreuken op de beveiliging van persoonsgegevens te voorkomen
  • onderdeel van een gegevensminimalisatiestrategie

Deze voordelen zijn echter het resultaat van één feit: anonimisering is een zeer gecompliceerd en veeleisend proces. Het vereist veel voorbereiding en het gebruik van gespecialiseerde technieken. De voordelen die u ontvangt, zijn te beschouwen als een beloning voor uw harde werk.

Wat is data-anonimisering precies?

data-anonimisering is het gebruik van een of meer technieken die zijn ontworpen om het onmogelijk – of althans moeilijker – te maken om een ​​bepaald individu te identificeren aan de hand van opgeslagen gegevens die met hem/haar verband houden.

Volgens de Global University van Londen is anonimisering het proces waarbij zowel directe als indirecte persoonlijke identificatiemiddelen die ertoe kunnen leiden dat een persoon wordt geïdentificeerd, worden verwijderd.
Een persoon kan direct worden geïdentificeerd aan de hand van zijn/haar naam, adres, postcode, telefoonnummer, foto of afbeelding, of een ander uniek persoonlijk kenmerk.
Een persoon kan indirect identificeerbaar zijn wanneer bepaalde informatie is gekoppeld aan andere informatiebronnen, zoals hun werkplek, functie, salaris, postcode of zelfs het feit dat ze een bepaalde diagnose of aandoening hebben.

Welke soorten gegevens moeten anoniem worden gemaakt

In het geval van anonimisering die wordt uitgevoerd om aan de eisen van de AVG te voldoen, zou dat betekenen dat alle informatie die als persoonlijke data kan worden geclassificeerd, wordt geanonimiseerd.

Zoals we al hebben vermeld, is de definitie van persoonsgegevens in de AVG erg breed, en omvat deze informatie als:

  • inloggegevens
  • apparaat-ID’s
  • IP-adressen
  • cookies
  • browsertype
  • soort apparaat
  • plug-in details
  • taalvoorkeur
  • tijdzones
  • schermgrootte, schermkleurdiepte, systeemlettertypen
  • … en nog veel meer

Dat is best een lange lijst, toch?

De populairste anonimiseringstechnieken

Wat met name belangrijk is in het geval van anonimisering, is dat, volgens het Artikel 29-Werkgroep Advies 05/2014 over Anonimiseringstechnieken, dit niet mag worden behandeld als een enkele uniforme benadering van gegevensbescherming. Het is eerder een verzameling van verschillende technieken en methoden die worden gebruikt om de oorspronkelijke inhoud van de gegevensset permanent te maskeren.

Er is ook een zeer beperkte lijst met technieken die een voldoende hoog niveau van beveiliging hebben. Onder de goedgekeurde anonimiseringstechnieken noemt de Artikel 29-Werkgroep twee soorten procedures: randomisatie en generalisatie.

Hier vindt u een korte beschrijving van de technieken die onder hun reikwijdte vallen.

Randomisatie:

Ruistoevoeging: waarbij persoonlijke identificatiegegevens onnauwkeurig worden uitgedrukt (de grootte wordt bijvoorbeeld onjuist uitgedrukt).

Substitutie/Permutatie: waarbij persoonlijke identificatiegegevens in een tabel worden geschud of worden vervangen door willekeurige waarden (bijvoorbeeld: een postcode wordt vervangen door een woord).

Differentiële Privacy: waarbij persoonlijke identificatiegegevens van een gegevensset worden vergeleken met een geanonimiseerde gegevensset die door een derde partij wordt bijgehouden met instructies voor het gebruik van een ruisfunctie en een aanvaardbare hoeveelheid gegevenslekken wordt gedefinieerd.

Generalisatie:

Aggregatie/K-Anonimiteit: waarbij persoonlijke identificatiegegevens worden gegeneraliseerd naar een groep (bijvoorbeeld: een leeftijd van 30 wordt gegeneraliseerd naar 20-35).

L-Diversiteit: wanneer persoonlijke identificatiegegevens eerst worden gegeneraliseerd, waarna elk attribuut binnen een equivalentieklasse ten minste n keer voorkomt (eigenschappen worden bijvoorbeeld aan persoonlijke identificatiegegevens toegewezen en elke eigenschap komt een minimum aantal keren voor in een gegevensset of partitie).

De meest voorkomende bedreigingen bij anonimisering

Elk van de hierboven beschreven technieken heeft echter zijn eigen valkuilen, vooral wanneer getest tegen de drie meest voorkomende risico’s bij het anonimiseren van gegevens. Die risico’s zijn:

  • Uitzonderen
  • De mogelijkheid om enkele of alle records die een individu in de dataset identificeren te isoleren

  • Koppelbaarheid
  • De mogelijkheid om ten minste twee records met betrekking tot dezelfde betrokkene of een groep gegevenssubjecten te koppelen (in dezelfde databank of in twee verschillende databanken)

  • Gevolgtrekking
  • De mogelijkheid om met grote waarschijnlijkheid de waarde van een attribuut af te leiden van de waarden van een reeks andere attributen.

Zoals u in de onderstaande tabel kunt zien, heeft elke techniek zijn eigen sterke en zwakke punten:

Is Uitzonderen nog steeds een risico? Is Koppelbaarheid nog steeds een risico? Is Gevolgtrekking nog steeds een risico?
Ruistoevoeging Ja Misschien niet Misschien niet
Substitutie Ja Ja Misschien niet
Aggregatie of K-Anonimiteit Neen Ja Ja
L-Diversiteit Neen Ja Misschien niet
Differentiële Privacy Misschien niet Misschien niet Misschien niet

Bron: Artikel 29-Werkgroep Advies 05/2014 over Anonimiseringstechnieken

Om deze redenen is het ten zeerste aan te bevelen om niet één maar een combinatie van meerdere anonimiseringen samen te gebruiken om te voorkomen dat uw dataset opnieuw wordt geïdentificeerd. Maar zelfs die aanpak vertaalt zich niet noodzakelijkerwijs in totale gegevensbeveiliging.

Omdat er nu zoveel verschillende openbare datasets beschikbaar zijn om naar te verwijzen, heeft elke reeks records met een behoorlijke hoeveelheid informatie over iemand’s acties een goede kans om identificeerbare openbare records te matchen.

Latanya Sweeney heeft in 2000 aangetoond dat 87% van de Amerikaanse bevolking uniek kan worden geïdentificeerd door een combinatie van alleen hun postcode, geslacht en geboortedatum!

Daarom is het belangrijk om zelfs bij het toepassen van anonimiseringsprocessen de hoeveelheid geanonimiseerde gegevens die aan het publiek bekend wordt gemaakt, te beperken en om de methode voor gegevensminimalisatie te volgen. Op deze manier minimaliseert u het risico dat deze dataset wordt gematcht met andere soorten openbare records.

We zijn ons ervan bewust dat anonimiseringstechnieken en de bedreigingen die gepaard gaan met de toepassing ervan op uw gegevens, een veel breder onderwerp is dat onmogelijk in één blogpost kan worden aangepakt. Daarom hebben we een lijst samengesteld met waardevolle gidsen die meer licht werpen op de technische aspecten van data-anonimisering:

We hopen dat ze nuttig zullen zijn!

Nadelen van data-anonimisering

Hoewel data-anonimisering enkele zeer sterke voordelen heeft, mogen we de nadelen niet vergeten.

Het is belangrijk om te onthouden dat als u nieuwe gegevens van uw website wilt anonimiseren, u toestemming moet vragen om persoonlijke gegevens (zoals cookies, IP-adressen en apparaat-ID) te verzamelen en vervolgens anonimiseringstechnieken toe te passen of alleen anonieme gegevens te verzamelen vanaf het begin. In het laatste geval zijn deze gegevens beperkt tot paginaweergaven, omdat de meeste andere analysestatistieken en rapporten persoonlijke gegevens vereisen, zoals unieke paginaweergaves, unieke bezoekers, gebruikerslocaties, enzovoort.

Hoe veilig deze benadering ook klinkt, het ontneemt u ook alle waardevolle inzichten die u kunt krijgen met meer gedetailleerde informatie over uw klanten. Het ontdoen van elke gemeenschappelijke identificator van uw gegevens maakt het onmogelijk om een ​​meer gepersonaliseerde benadering naar uw klanten en bezoekers te cultiveren, bijvoorbeeld door hen te voorzien van op maat gemaakte berichten en speciale aanbiedingen of aanbevelingen.

Statistieken bewijzen dat personalisatie een steeds succesvollere marketingtactiek is. Bovendien willen consumenten hun persoonlijke gegevens graag delen met bedrijven als de gegevens voor hun eigen voordeel worden gebruikt:

  • 79% van de consumenten zegt dat ze waarschijnlijk alleen een aanbieding aannemen als deze is gepersonaliseerd en eerdere interacties weergeeft die de consument met het merk heeft gehad. (Marketo)
  • Meer dan de helft van de consumenten (57%) vindt het oke om persoonlijke informatie (op een website) te verstrekken zolang het in hun voordeel is en op verantwoorde manieren wordt gebruikt. (Janrain)

Daarom is het in sommige gevallen de moeite waard uw historische gegevensset op te offeren en een extra stap te zetten om uw gebruikers een hoger niveau van beveiliging en transparantie te bieden. Dit helpt hen om ontspannen te zijn over het delen van hun persoonlijke gegevens met u. Vervolgens kunt u deze gegevens gebruiken om hen een mate van personalisatie en klantervaring te bieden die zij wensen.

Gegevens van eerste partijen zijn een van de grootste troeven in het arsenaal van elke marketeer. We hebben er veel over geschreven in deze blogposts:

U kunt dit doen door uw gebruikers om toestemming te vragen voor het verwerken van hun gegevens en om alle ontvangen informatie op te slaan in overeenstemming met de nieuwe EU-privacywetgeving – iets waarover we veel hebben geschreven op onze blog in de AVG-sectie. Bekijk deze zeker eens!

Anonieme analytics – laatste gedachten

Anonimisering is absoluut een van de beste manieren om de veiligheid van gegevens die u verzamelt te waarborgen. Met deze extra beveiligingsmaatregel kunt u uw gegevensverzameling vrij gebruiken op manieren die wettelijk niet zijn toegestaan ​​als het gaat om niet-geanonimiseerde gegevens. Er zijn echter ook enkele aanzienlijke voordelen bij het gebruik van persoonlijke gegevens in de pure (oorspronkelijke) vorm. Daarom moet u echt goed nadenken over de voor- en nadelen van elke optie voordat u een definitieve beslissing neemt.

Maar het maakt niet uit welke methode u kiest, onthoud dat het opslaan van uw gegevens in een veilige omgeving ook van het grootste belang is.

Piwik PRO Analytics stelt u bijvoorbeeld in staat uw gegevens op te slaan op een locatie van uw keuze – met behulp van uw eigen infrastructuur, in een databank van een derde partij of in onze eigen beveiligde privécloud met servers in de EU en de VS. Bovendien stelt onze software u in staat aanvullende beveiligingsmaatregelen toe te passen op uw gegevens, zoals SAML Authentication of Audit Log, en kunt u profiteren van professioneel advies en ondersteuning voor gegevensbeveiliging.

Als u meer wilt weten, kunt u op elk gewenst moment contact met ons opnemen!

Vraag direct een offerte aan

Auteur:

Karolina Lubowicka, Content Marketer

Content marketing and social media enthusiast tweeting for @PiwikPRO.

Bekijk meer berichten van deze auteur

Delen