I.

Inleiding tot big data

Zoals we in de loop van de cursus hebben gezien, spelen data een cruciale rol in onze samenleving en stellen zij ons in staat inzicht te krijgen in de wereld om ons heen. In de afgelopen decennia hebben de explosie van het internet en Web 2.0-diensten, alsook mobiele apparaten en sensoren, geleid tot het ontstaan van enorme datasets.

De combinatie van een ‘groeiende stortvloed’ van gegenereerde gegevens en de beschikbaarheid van on-demand computertechnologieën (zoals cloud computing) heeft geleid tot de ontwikkeling van het concept big data, waarmee gegevens worden bedoeld die de verwerkingscapaciteit van conventionele databanksystemen te boven gaan.

Definities van big data

Big data worden gewoonlijk gedefinieerd als ‘grote hoeveelheden gegevens die zeer snel worden geproduceerd door een groot aantal uiteenlopende bronnen’.

Definities van big data zijn subjectief wat betreft de vraag hoe groot een dataset moet zijn om als big data te worden beschouwd. Er wordt niet verwezen naar het aantal bytes, de manier waarop wij gewoonlijk gegevens meten (bijvoorbeeld gigabytes). Nu de technologie snel evolueert en steeds meer apparaten op het internet worden aangesloten, neemt ook de hoeveelheid gegevens toe die wordt gecreëerd.

De omvang van de datasets die als big data kunnen worden aangemerkt, kan mettertijd ook toenemen. Bovendien kan wat ‘groot’ is voor een organisatie, een sector of een land, klein zijn voor een ander - denk maar aan Apple in vergelijking met een klein bedrijf, of aan Portugal in vergelijking met China.

Voorbeeld

We laten enorme sporen van gegevens na

In 2020 maakten we een van de grootste en meest mondiale uitdagingen ooit mee. We waren al ‘verbonden’, maar plots ging elk aspect van ons leven, van sporten tot werken en studeren, online. Winkels, sportscholen, kantoren, restaurants en bioscopen werden gesloten. De enige manier om te werken (voor degenen die niet in de frontlinie stonden), te studeren, te communiceren, meubels te kopen, sociale contacten te hebben of een film te kijken, was via het internet. We konden zelfs onze familie niet bezoeken en omhelzen.

Deze situatie heeft de wereld nog meer gedigitaliseerd. In één bepaalde dag kan ieder van ons:

  • Communiceren via WhatsApp berichten

  • Online naar iets surfen of zoeken

  • Online boodschappen, diensten of apparatuur kopen

  • Een schattige foto van onze harige vriend of een werkdocument delen

  • Een serie kijken op Netflix of Amazon Prime Video vooraleer naar bed te gaan

  • Muziek beluisteren via SoundCloud, Spotify of YouTube

  • Een boek kopen en lezen op een e-reader

Vermenigvuldig dat met de miljoenen gebruikers die elke dag hun telefoon of computer (of allebei!) gebruiken.

Data-icoontjes die voortkomen uit voetafdrukken op de grond

Jouw digitale voetafdruk

Zowat elke actie die we vandaag ondernemen, laat een digitaal spoor na. We genereren gegevens wanneer we onze met sensoren uitgeruste smartphones bij ons hebben, wanneer we online naar iets zoeken, wanneer we met onze familie of vrienden communiceren via sociale media of chatapplicaties, en wanneer we winkelen. Bij elke digitale handeling laten we een digitale voetafdruk achter, soms zelfs onbewust of onvrijwillig.

Heb je je ooit afgevraagd hoe bedrijven als Amazon, Spotify of Netflix weten wat ‘je misschien ook leuk vindt’? Aanbevelingsengines zijn een gebruikelijke toepassing van big data. Amazon, Netflix en Spotify gebruiken algoritmen op basis van big data om specifieke aanbevelingen te doen op basis van jouw voorkeuren en vroeger gedrag. Siri en Alexa vertrouwen op big data om de verscheidenheid aan vragen die gebruikers kunnen stellen te beantwoorden. Google is nu in staat om aanbevelingen te doen op basis van big data op het apparaat van een gebruiker. Maar hoe beïnvloeden die aanbevelingen hoe jij jouw tijd besteedt, welke producten je koopt, welke opinies je leest? Waarom investeren deze grote bedrijven daar zo veel geld in? Kennen ze je alleen, of beïnvloeden ze je ook? Hoewel aanbevelingssystemen goed zijn voor een derde van alle verkeer op veel populaire sites, weten we niet hoeveel macht ze hebben om onze beslissingen te beïnvloeden.

Voorbeeld

Wat weet jouw telefoon over jou?

Heb je je weleens afgevraagd wat jouw smartphone weet over jou, over jouw gedrag, jouw gevoelens, jouw humeur of gezondheidstoestand? Smartphones hebben veel krachtige sensoren die continu data over jou genereren en zo jouw leven vereenvoudigen. Waar ligt de grens tussen privacy en databescherming en gemak? Denk daar gerust eens over na en neem de juiste beslissing.

Big data combineren gestructureerde, semigestructureerde en ongestructureerde gegevens die kunnen worden ontgonnen voor informatie en die kunnen worden gebruikt voor machinaal leren, voorspellingsanalyses en andere geavanceerde analysetoepassingen. Gestructureerde data zijn data die kunnen worden geordend in rijen en kolommen, of relationele databases; en ongestructureerde gegevens zijn gegevens die niet op een vooraf bepaalde manier zijn geordend, bijvoorbeeld Tweets, blogberichten, foto's, getallen en zelfs videogegevens.

Organisaties gebruiken specifieke systemen om big data op te slaan en te verwerken, de zogenaamde datamanagementarchitectuur.

Eigenschappen van big data

De meest algemeen aanvaarde karakterisering van big data volgt de drie V's die Doug Laney in 2001 heeft bedacht: het grote volume aan gegevens dat wordt gegenereerd, de grote variety (verscheidenheid) aan soorten gegevens die worden opgeslagen en verwerkt in big datasystemen en de velocity (snelheid) waarmee de gegevens worden gegenereerd, verzameld en verwerkt. Verder werden nog veracity, (waarachtigheid),value (waarde) en variability (variabiliteit) toegevoegd om de beschrijving van big data te verrijken.

IBM Big Data & Analytics Hub heeft een infographic gemaakt waarin elk van de eerste vier V's wordt uitgelegd en van voorbeelden wordt voorzien.

  • Volume staat voor de hoeveelheid gegevens die elk moment in onze sterk gedigitaliseerde wereld wordt gegenereerd/verzameld, gemeten in bytes (terabytes, exabytes, zettabytes). Zoals je je kunt voorstellen, zijn er door de enorme hoeveelheden gegevens vele uitdagingen, zoals opslag, distributie en verwerking. De uitdagingen hebben betrekking op kosten, schaalbaarheid en prestaties. Het volume wordt ook gedreven door de toename van gegevensbronnen (meer mensen online), hogere resoluties (sensoren) en schaalbare infrastructuur.

Note

Elke dag worden er 2,5 quintiljoen bytes aan gegevens gecreëerd. Dat staat gelijk aan 10 miljoen blu-rays per dag. Elke dag worden er 95 miljoen foto's en video's gedeeld op Instagram, 306,4 miljard e-mails verstuurd en 5 miljoen Tweets geplaatst. Wereldwijd zijn er 4,57 miljard actieve internetgebruikers. Al onze apparaten genereren, verzamelen en slaan gegevens op.

  • Velocity verwijst naar de snelheid waarmee gegevens worden gegenereerd, non-stop, near- of real-time gestreamd, en verwerkt met behulp van lokale en cloudgebaseerde technologieën.

Note

Elke seconde wordt één uur video geüpload naar YouTube.

  • Variety slaat op de diversiteit van data. Gegevens worden in verschillende vormen beschikbaar gesteld, zoals tekst, afbeeldingen, tweets of geospatiale gegevens. Gegevens zijn ook afkomstig van verschillende bronnen, zoals machines, mensen, organisatorische processen (zowel intern als extern). Drijvende krachten zijn mobiele technologieën, sociale media, wearable technologieën, geotechnologieën, video en nog veel meer. Attributen zijn onder meer de mate waarin er structuur en complexiteit zijn.

  • Veracity verwijst naar de conformiteit met feiten en nauwkeurigheid. ‘Veracity’ is ook de kwaliteit en de oorsprong van gegevens. Attributen zijn onder meer consistentie, volledigheid, integriteit en ambiguïteit. Drijfveren zijn onder meer de kosten en de behoefte aan traceerbaarheid. Met het grote volume, de snelheid en de verscheidenheid van de gecreëerde gegevens moeten wij ons afvragen: is de informatie echt, of is zij vals?

Er komen nog meer V’s op, maar we vermelden er nog slechts een meer: Value (waarde). ‘Value’ verwijst naar ons vermogen en onze behoefte om gegevens in waarde om te zetten. ‘Value’ betekent niet alleen winst. Het kan te maken hebben met beveiliging en veiligheid (zoals seismische informatie), medisch (wearables die tekenen van een hartaanval kunnen vaststellen) of sociale voordelen zoals werknemers of persoonlijke tevredenheid. Big data hebben een grote intrinsieke waarde die vele vormen kan aannemen.

De V's zijn niet alleen kenmerkend voor big data, ze belichamen ook de uitdagingen ervan: enorme hoeveelheden gegevens, beschikbaar in verschillende formaten, grotendeels ongestructureerd, met wisselende kwaliteit, die snel moeten worden verwerkt om goed getimede beslissingen te kunnen nemen.

Waarom en hoe worden big data geanalyseerd?

80% van de gegevens wordt als ongestructureerd beschouwd. Hoe krijgen we betrouwbare en nauwkeurige inzichten? De gegevens moeten worden gefilterd, gecategoriseerd, geanalyseerd en gevisualiseerd.

Big data analytics is het technologische proces waarbij big data (datasets met een hoog volume, een hoge snelheid en/of een grote variëteit) worden onderzocht om informatie - verborgen patronen, correlaties, markttrends en/of klantvoorkeuren - aan het licht te brengen. Dit helpt organisaties, overheden of instellingen om datasets te onderzoeken en inzichten te verwerven, zodat zij goed geïnformeerde, slimme en snelle beslissingen kunnen nemen.

Daarbij komen drie belangrijke vragen aan bod: wat, waarom en hoe. Het ‘wat’ hebben we al gezien, dus volgt nu een overzicht van het ‘waarom’ en het ‘hoe’.

Het waarom en hoe van big data

Big data volgt het principe dat ‘hoe meer je over iets weet, hoe betrouwbaarder je nieuwe inzichten kunt verwerven en voorspellingen kunt doen over wat er in de toekomst zal gebeuren’.

Een typische levenscyclus voor gegevensbeheer omvat opname, opslag, verwerking, analyse, visualisatie, delen en toepassingen. De cloud en big data gaan hand in hand, waarbij data-analyse plaatsvindt bij publieke clouddiensten. Bedrijven zoals Amazon, Microsoft en Google bieden clouddiensten aan die een snelle inzet van enorme hoeveelheden rekenkracht mogelijk maken, zodat bedrijven op verzoek toegang kunnen krijgen tot state-of-the-art computing, zonder de noodzakelijke infrastructuur te bezitten, en de volledige levenscyclus van gegevensbeheer in de cloud kunnen uitvoeren. In het vorige hoofdstuk hebben we het gehad over SaaS, IaaS en PaaS. Met cloud computing kunnen big data-onderzoekers mogelijkheid toegang krijgen tot alles als een dienst (XaaS).

Pre-processing

Ruwe gegevens kunnen fouten of waarden van lage kwaliteit bevatten (ontbrekende waarden, uitschieters, ruis, inconsistente waarden) en moeten eventueel worden voorbewerkt (gegevensopschoning, -fusie, -transformatie en -reductie) om ruis te verwijderen, gegevens te corrigeren of de omvang ervan te beperken. Voor de analyse van het gedrag van watergebruik, bijvoorbeeld, is voorbewerking (‘pre-processing’) van de gegevens nodig om van de gegevens van slimme watermeters bruikbare waterverbruikspatronen te maken, omdat sommige gegevens misschien niet worden geregistreerd door IoT-sensoren.

Grafieken met datapatronen

Patronen of inzichten identificeren

Bij het geautomatiseerde proces achter big data worden modellen gebouwd op basis van de verzamelde gegevens en worden uitgevoerd simulaties, waarbij de waarde van datapunten wordt gewijzigd om te kijken hoe zij onze resultaten beïnvloedt. De geavanceerde analysetechnologie waarover we vandaag beschikken, kan miljoenen simulaties uitvoeren, waarbij variabelen worden aangepast terwijl gezocht wordt naar patronen of inzichten (het vinden van correlaties tussen variabelen) die een concurrentievoordeel kunnen opleveren of een probleem kunnen oplossen. Gedagsanalyse richt zich op de handelingen van mensen en voorspellingsanalyse zoekt naar patronen die kunnen helpen om trends voor te zijn.

Voorbeeld

Laten we bijvoorbeeld eens kijken naar Business Intelligence (BI) BI is het proces waarbij gegevens worden geanalyseerd met het doel bruikbare informatie te leveren die leidinggevenden, managers en werknemers helpt om weloverwogen zakelijke beslissingen te nemen. Business intelligence richt zich op bedrijfsactiviteiten en -prestaties. De data die nodig zijn voor BI zijn anders, namelijk meer uitgewerkt. Big datasystemen bevatten ruwe gegevens die moeten worden gefilterd en geordend voordat ze worden geladen en geanalyseerd voor BI-doeleinden. De gebruikte instrumenten zijn ook verschillend, aangezien het doel en de gegevens verschillend zijn.

Datamining

Het proces van het ontdekken van patronen uit grote gegevensverzamelingen door middel van statistische analyse wordt datamining genoemd. Statistische analyse is een veelgebruikte wiskundige methode voor informatie-extractie en -ontdekking. Statistische methoden zijn wiskundige formules, modellen en technieken die worden gebruikt om uit ruwe data, patronen en regels te halen. Veelgebruikte methoden zijn regressieanalyse, spatiotemporele analyse, associatieregels, classificatie, clustering en deep learning.

Voorbeeld

Een voorbeeld van het praktische gebruik van big data is te zien in mobiele telefoongegevens. Gebruiksgegevens van telefoonsensoren kunnen worden gebruikt voor Usage Based Insurance (UBI). Sparkbit biedt bestuurders een verzekeringsaanbod op maat op basis van hun gedrag. Dit systeem gebruikt de informatie van smartphones om de techniek en het rijgedrag te evalueren. In maart 2018 had het 330 miljoen kilometer aan afgelegde routes verzameld, gemaakt door gebruikers van hun systeem. Het telt 30.000 nieuwe actieve gebruikers per maand, die elk gemiddeld 70 nieuwe routes registreren. Voor elke rit wordt een reeks GPS-punten (geografische coördinaten, geschatte positienauwkeurigheid, voertuigsnelheid of richting waarin het voertuig beweegt) aangemaakt. Het systeem slaat de gegevens op, verwerkt ze en analyseert het rijgedrag van de bestuurder (zoals gevaarlijk rijgedrag), en geeft een puntenscore voor de route en de bestuurder.

Om de beschikbare gegevens zinvol te gebruiken, wordt vaak gebruik gemaakt van geavanceerde analyses op basis van artificiële intelligentie en machinaal leren. Bij machinaal leren kunnen computers leren te bepalen waar verschillende gegevensinputs of combinaties daarvan voor staan, waarbij patronen veel sneller en efficiënter worden geïdentificeerd dan bij mensen.

Next section
II. Toepassingen en gevolgen van big data