Big Data & Privacy: een beladen relatie

in Topics, (Big) Data & Analytics, 17.04.2013

“Hond die overal op urineert”, “gevoelloze vingers”, “thee voor een goede gezondheid”, “huizen verkocht in Shadow Lake”, dit zijn enkele van de zoektermen die ‘No. 4417749’ heeft gebruikt bij de zoekmachine van AOL.

AOL heeft in 2006 een lijst gepubliceerd met de zoekopdrachten van meer dan een half miljoen abonnees. De lijst bevat meer dan twintig miljoen zoekopdrachten die verzameld zijn over een periode van drie maanden. Om de privacy van de klanten van AOL te waarborgen, heeft AOL de lijst van zoekopdrachten geanonimiseerd door niet de naam van de persoon te vermelden, maar een willekeurig getal.

Van ‘No. 4417749’ was redelijk snel te achterhalen dat de persoon een interesse had in het gedrag van honden. Een nadere inspectie leerde dat de persoon ook interesse had in verschillende zaken in de stad Lilburn. Verder bleek dat er meerdere malen was gezocht naar personen met de achternaam Arnold.

Supercomputers hoefden er niet aan te pas te komen om te herleiden dat de persoon achter ‘No. 4417749’, Thelma Arnold is. Een 62 jarige weduwe uit de stad Lilburn.

Thelma werd geconfronteerd met de lijst met haar zoekopdrachten door een reporter en reageerde geschokt. Thelma was zich geen moment bewust van het feit dat al haar zoekresultaten werden bijgehouden en bewaard. AOL reageerde hierop door de lijst onmiddellijk van het Internet te halen en excuses aan te bieden voor de gemaakte fout. Het leed was echter al geschied. De lijst circuleerde al op het Internet en er werden zelfs wedstrijden op Internet forums gehouden wie de meeste personen achter de ‘anonieme’ zoeker kon vinden.

Zeven jaar later heeft de techniek van big data een vlucht genomen en is het makkelijker dan ooit om uit de oneindige hoeveelheid gegevens, waardevolle informatie te ontsluiten. Hierdoor is het met de techniek van nu, nog makkelijker om de personen te vinden achter de nummers van AOL. Hierin schuilt echter ook het gevaar. Hoe weten we zeker dat big data niet de privacy van de burger aantast? En als anonimisering wordt toegepast, hoe kunnen we garanderen dat de gegevens niet alsnog te herleiden zijn tot een identificeerbaar persoon?

Bij het beantwoorden van deze vragen wordt vaak heil gezocht in de toepassing van privacy wetgeving. In de afgelopen zeven jaar heeft ook de privacywetgeving niet stil gestaan. Momenteel wordt een laatste hand gelegd aan de Europese privacyverordening. Deze verordening zal de privacyrichtlijn uit 1995 opvolgen. De verordening stelt nog hogere eisen aan de omstandigheden waarin data wordt verwerkt. Door sommigen wordt al geoordeeld dat door de hoge eisen die gesteld worden aan voorafgaande toestemming van verwerking, de big data industrie een halt wordt toegeroepen. Door anderen wordt betoogd dat de wet niet ver genoeg gaat, omdat het nog steeds ruimte laat voor verwerking wanneer anonimisering wordt toegepast.

Middels wetgeving kan een eerste kader worden gecreëerd waarbinnen gegevensverzameling en –verwerking toegestaan is. Op welke wijze hier vervolgens mee moet worden omgegaan zal per geval moeten worden bekeken. Hierin zal wetgeving slechts beperkt steun bieden. Het zal te allen tijden belangrijk blijven dat de partij die de gegevens verwerkt, maar ook de personen die hun gegevens verstrekken bewust met privacy om gaan.

Wat het voorbeeld van AOL laat zien, is dat het privacygevaar niet zozeer ligt in het toepassen van big data technieken, maar in de verzameling van gegevens. Zonder geavanceerde technieken was het internetgebruikers namelijk gelukt om een groot deel van de lijst met nummers om te zetten in personen.

Zal een conclusie dan moeten zijn dat de bedrijven maar geen grote hoeveelheden gegevens meer moeten bewaren? Een positief antwoord op die vraag zal er toe leiden dat we afscheid zouden moeten nemen van de functionaliteiten en dienstenmodellen op het Internet zoals wij die nu kennen. De kracht van veel internetdiensten ligt in het feit dat gegevens verzameld worden gepresenteerd door en voor eindgebruiker.

Het verdienmodel van Facebook is gebaseerd op het slim analyseren van gebruikersvoorkeuren en het verkopen van die informatie aan advertentieleveranciers. Google doet hetzelfde met zoekresultaten en e-mails. Dit zorgt er enerzijds voor dat we als internetklant niet de ‘verkeerde’ advertenties te zien krijgen en anderzijds dat de internetaanbieders de advertenties voor hogere prijzen kunnen verkopen. Met de aanstaande privacyverordening is het de vraag of deze verdienmodellen nog toegestaan zijn.

Het beperken van gegevensverwerking door middel van wetgeving is naar mijn opinie dan ook niet de oplossing. De oplossing zou juist gezocht moeten worden in het vergroten van het privacybesef in alle stappen van dataverwerking en het goed toepassen van privacy enhancing technologies. Het zijn juist deze aspecten die slim vertaald moeten worden naar privacy wetgeving. Dit zou ruimte laten voor waardetoevoegende big data diensten in de toekomst en meer bescherming bieden voor consumenten.

Wij helpen nu al onze klanten om privacybesef te creëren en verantwoord met privacy van klanten om te gaan. Belangrijk is en blijft dat niet meer gegevens worden opgeslagen dan noodzakelijk en dat voldoende maatregelen zijn genomen om de gegevens veilig te stellen. Hiervoor zijn informatiebeveiligingsmaatregelen als juiste logische toegangsbeveiliging en goede anonimisering aan de bron essentieel. Alleen hiermee kan worden gepoogd privacyschandalen als die van AOL tot het verleden te laten behoren.


Leave a Reply

Your email address will not be published.