Big Data is dood – lang leve AI?

Klinische praktijk
Abstract
Patrick M. Bossuyt
Download PDF

Samenvatting

Big Data verwijst traditioneel naar een bundel gegevens die zo groot of complex is dat conventionele methoden niet toereikend zijn. Met - of juist door - het onconventionele kwam ook de verwachting dat Big Data kennisproblemen kon oplossen die tot dan toe niet aan te pakken waren. Tien jaar verder is het onderscheid tussen data en Big Data eigenlijk achterhaald. In de klinisch-wetenschappelijke bladen verschijnen steeds vaker analyses waarbij heel grote bestanden zijn gebruikt. Gebleven is echter de gedachte dat er sprake is van een trendbreuk, en dat machine learning en kunstmatige intelligentie ons veel zullen brengen. Een theorieloze geneeskunde is echter een onmogelijkheid, en voorspellen – waar kunstmatige intelligentie soms erg goed in is - is geen synoniem voor begrijpen en verklaren.

artikel

De opkomst van Big Data

Big Data – de term wordt eigenlijk alleen in het enkelvoud gebruikt – werd in 2013 voor het eerst opgenomen in de Oxford English Dictionary. Maar de oorsprong gaat veel verder terug. Al decennialang verbazen mensen zich over de stijgende toename van de hoeveelheid informatie die mensen genereren. Na de Tweede Wereldoorlog stelde de schrijver Fremont Rider vast dat de bibliotheken aan de Amerikaanse universiteiten ruwweg elke 16 jaar in omvang verdubbelden. Die trend doortrekkend, voorspelde Rider dat er voor de bibliotheek in Yale in 2040 bijna 10.000 kilometer aan plankruimte nodig zou zijn.1

Rider voorzag niet dat bibliotheken ook digitaal zouden worden, of dat er daarnaast ook een internet zou ontstaan. De hoeveelheid gegevens die daar te vinden zijn is zonder meer astronomisch te noemen. Sinds enkel jaren gaat het om een zettabyte aan gegevens: 10 tot de 21e macht aan bytes. Als elke gigabyte aan gegevens een baksteen zou zijn, zouden we er 258 keer de Grote Muur van China mee kunnen bouwen. Volgend jaar zal er op het internet 2,3 zettabyte aan gegevens worden rondgepompt.

Een artikel van de International Data Corporation IDC voorspelde enkele jaren geleden dat de totale hoeveelheid data in de wereld zou toenemen van 4,4 zettabytes in 2013 tot 44 zettabytes in 2020, een niet voor te stellen hoeveelheid.2 In 2025 zullen wereldwijd 150 miljard apparaten onderling verbonden zijn, met een bijna continue stroom van nieuwe data.

Geleidelijk realiseerden verschillende auteurs zich dat de bestaande methoden en middelen voor het analyseren van gegevens niet toereikend waren voor de massale hoeveelheden die werden gegenereerd. Het gaat daarbij trouwens niet enkel om de hoeveelheid data (‘volume’): ook de snelheid waarmee gegevens beschikbaar komen (‘velocity’) en hun verscheidenheid (‘variety’) plaatsen analisten voor uitdagingen. Je ziet die drie V’s nog geregeld opduiken in artikelen over Big Data. Ze vormen de ‘klassieke’ definitie van Big Data: een bundel aan gegevens die niet op de conventionele manier geanalyseerd kan worden.

Maar eigenlijk is deze – enigszins pejoratieve – omschrijving achterhaald. Al gauw werden de uitdagingen verruild voor mogelijkheden. Opslag en verwerking waren eigenlijk helemaal niet zo complex. De ontwikkeling van nieuwere technieken en de toepassing van bestaande analytische strategieën maakten een informatieve verwerking mogelijk.

Sterker nog, die grote hoeveelheden gevarieerde data werden geleidelijk gezien als een goudmijn voor degene die ze bezat: in de eerste plaats bedrijven. Die ontwikkeling viel samen met de pleidooien voor een Web 2.0, het sterk interactieve web, zoals Tim O’Reilly dat bepleitte.3 Data werden gezien als de krachtbron van bedrijven: ze kunnen makkelijk worden opgeslagen, vervoerd, bewaard en bewerkt tot een verrijkt product. ‘Data is the App – Data is the new “Intel Inside”’.4

Big Data veranderde zo van een bron van getob in een reden voor optimisme – de connotatie werd positief. Daar is niet het minst aan bijgedragen door de groei van ‘machine learning’, ‘deep learning’ en ‘artificial intelligence’. Met alle gebruiksgegevens durft Netflix te voorspellen welke films u aanspreken, verkoopt Google advertenties waarop u waarschijnlijk doorklikt en ordent Albert Heijn de schappen in de winkels. Want voorspellen is een sleutelonderdeel van het gebruik van Big Data.

Het duurde niet lang of het optimisme van Big Data, machine learning, deep learning en artificial intelligence sloeg over naar de wetenschap. Het verst ging daarin Chris Anderson, hoofdredacteur van het Amerikaanse gadget- en techniekblad Wired – die voorspelde niet minder dan het einde van de wetenschappelijke methode zoals we die de voorbije eeuwen hadden leren kennen: ‘The end of theory’.5 Niet langer ging het om het zorgvuldig knutselen aan theorieën door de falsificatie, dan wel ondersteuning van hypotheses, nee, de grote hoeveelheden die empirische wetenschappers – onder wie ook artsen en epidemiologen – nu tot hun beschikking hebben gekregen, maken van voorspellen hun hoofdtaak. En daar kunnen theorieën goed bij worden gemist, als hinderlijke ballast. ‘De zondvloed aan data maakt de traditionele wetenschappelijke methode obsoleet’, schreef Anderson. Een hypothesevrije, datarijke wetenschap gloort.

De hype en de hoop van Big Data sloegen ook over op de geneeskunde. Juist de massale hoeveelheid gegevens – in elektronische patiëntendossiers, in de apps van gebruikers, in declaratie- en voorschrijfgegevens, in genenpanels met duizenden SNP’s, noem maar op – zal ervoor zorgen dat we ziekten uitbannen, de zorg optimaliseren en de juiste behandeling voor de geschikte patiënt gaan selecteren, zo luidt de belofte.

Het is niet toevallig dat de Big Data-golf in de geneeskunde parallel liep met de opkomst van ‘real world evidence’.6 Het was niet langer nodig om goed onderzoek op te zetten. Onderzoekers hoefden uit bestanden geen steekproef meer te trekken. Door alle gegevens uit alle patiëntendossiers te analyseren zou immers wel duidelijk worden of een geneesmiddel of een behandeling effectief is, of welke volgorde van geneesmiddelen de beste is voor een specifieke patiëntengroep.

En het einde van Big Data

Dan nu de verrassing: ‘Big data is dead.’ Dat las ik de voorbije zomer in het blad Forbes. Jawel, nog geen decennium na de opkomst wordt Big Data alweer ten grave gedragen. Dat was niet voor het eerst. Enkele jaren eerder had een andere columnist ook al een stuk geschreven met dezelfde titel. En vorig jaar verscheen op de blog van het onderzoeks- en adviesbureau Gartner ‘The Big Data Obituary’: een in memoriam voor Big Data.7 Gartner is bekend geworden met de ‘hype cycle’: een jaarlijks vernieuwde beschrijving van waar nieuwe technologieën zich bevinden op de ontwikkelingscurve, van het ontstaan naar de piek der hooggespannen verwachtingen, de afdaling door de kloof der wanhoop, de klim naar de verlichting en het plateau van productiviteit. Waar bevindt Big Data zich volgens Gartner op deze curve? Nergens meer: het hele begrip Big Data is van de curve getuimeld.

Hoe komt het dan dat Big Data meermaals ten grave wordt gedragen? Niet vanwege de hooggespannen verwachtingen, maar omdat het niet meer nodig is een onderscheid te maken tussen data en Big Data. De technieken voor opslag, verwerking en analyse zijn dusdanig verbeterd dat ook de massale datasets gewoon kunnen worden verwerkt. ‘Big data’ is gewoon ‘data’ geworden.

Verwachtingen in het nieuwe decennium

Wie de wetenschappelijke bladen in de geneeskunde bijhoudt, zag het voorbije jaar steeds vaker dat nieuwerwetse technieken werden toegepast op grote bestanden en meerdere bronnen, en dat in de ‘gewone’, algemeen-klinische tijdschriften. Overigens zonder dat de term Big Data wordt genoemd. We geven enkele voorbeelden.

Dit voorjaar werd in dit tijdschrift een Engels onderzoek besproken naar het verband tussen slaapgedrag en het optreden van borstkanker. De onderzoekers gebruikten de UK Biobank, die materiaal en data heeft verzameld van een half miljoen deelnemers. De onderzoekers maakten gebruik van mendeliaanse randomisatie en bouwden een regressiemodel met gegevens van 156.468 vrouwen.8 In juli verscheen in JAMA Open een analyse waarin onderzoekers de kans op sterfte voorspelden op basis van gegevens en longfoto’s van bijna 50.000 deelnemers aan het PLCO-screeningsonderzoek (prostaatkanker, longkanker, colorectale kanker, ovariumkanker).9 De kansen waren berekend met behulp van een ‘convolutional neural network’, een voorbeeld van ‘deep learning’.

En in maart verscheen in de BMJ een verslag van een onderzoek naar de kans op sterfte bij ruim 150.000 gebruikers van protonpompremmers en ruim 50.000 maagzuurremmers. Deze onderzoekers gebruikten ‘high dimensional propensity scores’.10

In JAMA verscheen in mei een fenotypering van alle ruim 20.000 patiënten die met sepsis waren opgenomen in 12 ziekenhuizen in Pennsylvania. De onderzoekers maakten gebruik van ‘k-means clustering’ en evalueerden hun vier fenotypes in een apart cohort van nog een keer ruim 43.000 patiënten met sepsis.11

Deze onderzoeken betreffen allemaal hoeveelheden van data waar we een tijd terug enkel maar van konden dromen. Geen van deze artikelen heeft het over Big Data… Het zijn gewoon grote bestanden, wat niet meer uitzonderlijk is. Ze leunen sterk op bestaande inzichten, bestaande theorieën en de klassieke geneeskunde.

Het probleem van Anderson is dat beter voorspellen niet altijd neerkomt op beter begrijpen en niet gegarandeerd tot betere uitkomsten leidt. En bovendien niet zonder theorie kan. Om van gegevens data te maken, is een bepaalde theorie van de werkelijkheid nodig, een bepaalde invalshoek. Een puur empiristische geneeskunde is niet denkbaar. De data spreken nooit voor zichzelf, ze hebben een luisteraar nodig. Andersons enthousiaste roep is vooral met scepsis onthaald.12

Zijn algoritmen in sommige taken dan niet sterker dan mensen? In voorspellen, bijvoorbeeld? Jawel, maar voorspellen en begrijpen zijn twee verschillende vaardigheden.

Een Amerikaanse collega vertelde me onlangs een anekdote over data science die me is bijgebleven, omdat ze veel zegt over de beperkingen van het bouwen van voorspelmodellen. In zijn ziekenhuis was veel aandacht voor ongeplande heropnamen. Die worden door verzekeraars als een faalindicator beschouwd en er bestaan systemen waarin de vergoeding voor geleverde zorg is gekoppeld aan de proportie patiënten die binnen 30 dagen opnieuw moet worden opgenomen. Dat was voldoende reden om met grote hoeveelheden data aan de slag te gaan en met een complex algoritme te voorspellen wie wel en wie niet een grote kans had om binnen een maand opnieuw in het ziekenhuis te belanden. Het model dat werd gebouwd bleek het ook verrassend goed te doen toen het op een testset werd losgelaten: de voorspellingen kwamen aardig uit. Toen het eenmaal werd geïmplementeerd, ontstond er echter een enorm probleem. Het model kon aanwijzen wie van de patiënten die kon worden ontslagen een grote kans maakte op een ongeplande heropname, waarna die patiënten niet vertrokken, maar in het ziekenhuis bleven. Maar niets of niemand, noch het model, noch de bouwers, kon vertellen waarom deze patiënten langer in het ziekenhuis konden blijven: waarom de kans op een heropname verhoogd was. En niemand kon vertellen hoe die patiënten het beste konden worden behandeld om de kans op een ongeplande heropname te verkleinen…

Tot slot

We kunnen steeds meer grote bestanden openen, koppelen, verwerken en analyseren, zoals de eerdergenoemde voorbeelden laten zien. Er is geen onderscheid meer tussen data en big data, die te groot zijn om met conventionele technieken te analyseren. Dat biedt onvermoede mogelijkheden voor de (conventionele) wetenschap en de geneeskunde. Gebleven is de hoop dat we met ‘machine learning’ en kunstmatige intelligentie veel, zo niet alle problemen in de wetenschap en de zorg kunnen oplossen. Of dat zo is, is nog maar de vraag. Een zuiver empirische geneeskunde, waarin de data voor zich spreken, al dan niet geholpen door kunstmatige intelligentie, is een onmogelijkheid. Voorspellen en begrijpen zijn geen synoniemen. Of patiënten en burgers dankzij de voorspellingen een langer en gezonder leven kunnen leiden, is nog een open vraag.

Literatuur
  1. Pres G. A Very Short History Of Big Data. Forbes 2013; te raadplegen via: www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data. Geraadpleegd op 3 december 2019.

  2. Reinsel D, Gantz J, Rydning J. The Digitization of the World - From Edge to Core, in IDC White Paper 2018: USA: Framingham.

  3. O’Reilly T. What Is Web 2.0 - Design Patterns and Business Models for the Next Generation of Software. 2005; te raadplegen via: www.oreilly.com/pub/a/web2/archive/what-is-web-20.html. Geraadpleegd op: 3 december 2019.

  4. Thuma J. Five Megatrends for the Future of Data. 2019; te raadplegen via: www.fisglobal.com/insights/what-we-think/2019/november/five-megatrends-for-the-future-of-data. Geraadpleeg op: 3 december 2019.

  5. Anderson C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. WIRED, 2008.

  6. Bossuyt PMM. Gegevens uit registratie vormen aanvulling op vergelijkend onderzoek. Ned Tijdschr Geneeskd. 2018;162:D3040.

  7. Sicular S. The Big Data Obituary. 2018 [cited 2019 November, 18]; te raadplegen via: www.blogs.gartner.com/svetlana-sicular/the-big-data-obituary. Geraadpleegd op: 3 december 2019.

  8. Harmans, L. Slaapkenmerken en borstkanker. Ned.Tijdschr.Geneeskd.2019;163:C4296.

  9. Lu MT, Ivanov A, Mayrhofer T, Hosny A, Aerts HJWL, Hoffmann U. Deep Learning to Assess Long-term Mortality From Chest Radiographs. JAMA Netw Open. 2019;2:e197416. doi:10.1001/jamanetworkopen.2019.7416. Medline

  10. Xie Y, Bowe B, Yan Y, Xian H, Li T, Al-Aly Z. Estimates of all cause mortality and cause specific mortality associated with proton pump inhibitors among US veterans: cohort study. BMJ.2019;365:l1580. doi:10.1136/bmj.l1580. Medline

  11. Seymour CW, Kennedy JN, Wang S, et al. Derivation, Validation, and Potential Treatment Implications of Novel Clinical Phenotypes for Sepsis. JAMA. 2019;321:2003-17. doi:10.1001/jama.2019.5791. Medline

  12. Kitchin R. Big Data, new epistemologies and paradigm shifts. Big Data Soc. 2014;1:1-12. doi:10.1177/2053951714528481.

Auteursinformatie

Amsterdam UMC, locatie AMC, afd. Klinische Epidemiologie, Biostatistiek en Bioinformatica, Amsterdam.Prof.dr. P.M. Bossuyt, hoogleraar Klinische Epidemiologie.

Contact p.m.bossuyt@amsterdamumc.nl (p.m.bossuyt@amsterdamumc.nl)

Belangenverstrengeling

Belangenconflict en financiële ondersteuning: geen gemeld.

Heb je nog vragen na het lezen van dit artikel?
Check onze AI-tool en verbaas je over de antwoorden.
ASK NTVG

Ook interessant

Reacties