Van advanced naar augmented data analytics
De wereldwijde markt van big data en business analytics was volgens marktonderzoeker Research and Market in 2022 ruim 294 miljard dollar waard en zou meer dan verdubbelen tegen 2028. De belangstelling voor data analytics groeit dan ook exponentieel om tot betere en snellere besluitvorming te komen. Machine learning en AI gaan die trend nog versnellen. (Frans Godden)
Bedrijven verzamelen enorme hoeveelheden data over hun werking en klanten. Data analytics is het proces waarbij die massa gegevens ontleed worden op zoek naar patronen, trends en inzichten die de basis kunnen vormen voor een betere besluitvorming. Zo heeft een onderzoek van McKinsey aangetoond dat de kans op meer winst en omzet twee keer groter is bij bedrijven die gebruikmaken van customer analytics. Het is dan ook niet verwonderlijk dat het US Bureau of Labor Statistics voorspelt dat de vraag naar data-analisten in de komende tien jaar met 23% zal stijgen, veel sneller dan het gemiddelde van 5% voor alle andere industrietakken.
De data-analist krijgt dan een centrale rol als verzamelaar van data die alles ordent, interpreteert en problemen oplost. Hij raadpleegt daarbij een waaier van bronnen, controleert of de data wel correct zijn, laat er statistische methoden op los en plakt er ten slotte visualisatietools zoals schema’s en grafieken aan om alles ook voor niet ingewijden duidelijk te maken. Hij heeft een heel complexe en belangrijke rol want zijn conclusies en aanbevelingen kunnen de drijvende kracht achter een organisatie vormen.
De voorbije jaren zijn er dan ook tal van bedrijven die data analytics in hun gamma opgenomen hebben, Tableau, Microsoft, Oracle, en SAP om er maar een paar te noemen. SAS, dat net zijn jaarlijkse conferentie achter de rug heeft, is één van de grootste niet-beursgenoteerde softwarebedrijven ter wereld en volgens meerdere analisten marktleider in advanced analytics. In 2019 kondigde het aan dat het 1 miljard dollar ging investeren in AI en vorig jaar deed het daar nog eens een miljard bij.
Aanvullend
Betekent dat nu dat er geen ruimte meer is voor traditionele analytics? “Nee, helemaal niet”, zegt Mathias Coopmans, hoofd van het EMEA Enterprise Architecture team bij SAS. “In 2016 zijn we met SAS Viya begonnen, een artificial intelligence, machine learning, analytics en data management platform met use cases die we met traditionele analytics niet konden oplossen. Vandaag zien we dat dergelijke traditionele technieken onder meer in de farmawereld nog altijd gevraagd worden en dat AI hier alle vragen nog niet kan beantwoorden.”
AI moet volgens Coopmans dan ook eerder gezien worden als een bijkomend middel om de productiviteit op te drijven, om sneller resultaten te halen. Een AI-tool als ChatGPT kan vooral gebruikt worden naast de menselijke expertise, data-analisten moeten de suggesties die ChatGPT geeft kritisch evalueren om de correctheid van de analyse te controleren. “Ook al worden AI en machine learning steeds belangrijker in data analytics, toch ziet het er niet naar uit dat ze de menselijke data analytics volledig zullen vervangen”, zegt Coopmans. “AI kan helpen bij het verwerken van de data maar er zullen nog altijd analisten nodig zijn om de data te interpreteren en beslissingen te nemen op basis van die data. Analisten zullen AI ook qua creativiteit en kritisch denken altijd overtreffen.”
Weet wat je vraagt
Forrester ziet alvast een nieuwe bedrijfsfunctie ontstaan, de CAIO of Chief AI Officer, die de strategie op het vlak van AI zal uitzetten. Meer dan 10% van de bedrijven zou nu al zo’n CAIO in dienst hebben die er samen met de CDO (Chief Data Officer) voor moet zorgen dat AI maximaal rendeert. Daartoe moeten volgens Forrester ook de werknemers opgeleid worden om de juiste vragen te stellen om de meest relevante, coherente resultaten te krijgen. Verkeerde vragen leveren alleen maar idiote antwoorden op – eigenlijk niks nieuws onder de zon want ook zonder AI gold dat principe al. Probleem wel: de meeste werknemers weten niet hoe ze de perfecte vraag moeten formuleren, dus opleiding en training zullen zich hier opdringen.
Forrester wijst in zijn rapport ‘Predictions 2024: Data and Analytics’ nog op een ander fenomeen: de explosieve groei van ongestructureerde data die dit jaar nog in volume zullen verdubbelen. De idee dat een bedrijf vandaag alles wel onder controle heeft, is dan ook een illusie, maar bedrijven die vandaag investeren in unstructured pipelines kunnen wel een voorsprong nemen omdat ze via analytics een veel groter veld van klanteninzichten kunnen aanspreken.
Synthetische data
“Maar er is nog een grote olifant in de kamer”, zegt Mathias Coopmans: “Generatieve AI en large language models. En nee, de R&D bij SAS wil geen generatieve AI-modellen bouwen. Er zijn grote spelers op de markt die dat veel beter kunnen, maar we zijn wel bezig een co-pilot te ontwikkelen in het kader van onze samenwerking met Microsoft om te kijken hoe we de enterprise problematiek kunnen aanpakken met behulp van generatieve AI. Er is nog een tweede luik in generatieve AI, de synthetische data. Dat zijn geen large language models, het is een heel andere technologie, eerder een zijtak van generatieve AI maar wel een waar heel veel bedrijven mee willen werken omdat er goeie toepassingen voor zijn.”
Synthetische data zijn, zoals de naam het al zegt, data die kunstmatig gegenereerd worden wanneer echte data niet volstaan of helemaal niet beschikbaar zijn. Ze worden gebruikt in bijvoorbeeld validatietesten of ook om AI te trainen. Ze kunnen compleet synthetisch zijn, zonder enige link met echte data, of gedeeltelijk synthetisch met echte informatie maar zonder gevoelige data. “Waarom zou ik synthetische data gebruiken? Op de eerste plaats voor de privacy”, legt Coopmans uit. “Er is immers heel wat regulering over wat wel en niet vrijgegeven mag worden, maar met synthetische data heb je dat probleem niet omdat het gegenereerde data zijn. Er zitten geen namen of adressen in en wel gegevens waarmee je een model kan bouwen om gedrag te herkennen: wat is bijvoorbeeld een typische fraudeur of een trouwe klant.”
Ja, maar…
Gartner verwacht dat synthetische data tegen 2030 belangrijker zullen worden dan echte data. Organisaties kunnen synthetische data bijvoorbeeld gebruiken om een nieuw systeem uit te testen wanneer ze niet over live data beschikken of om kleine bestaande datasets aan te vullen. De synthetische variant kan ook gebruikt worden wanneer data niet gedeeld kunnen worden om privacyredenen.
Synthetische data hebben echter ook hun beperkingen. Hun kwaliteit is meestal sterk afhankelijk van de kwaliteit van het model waarmee ze gegenereerd werden. Er zijn altijd extra controles nodig zoals een vergelijking met echte menselijke data om na te gaan of de resultaten wel betrouwbaar zijn, of het systeem niet aan het hallucineren is. Eén en ander maakt dat niet iedereen vertrouwen heeft in synthetische data en dat ze vaak als minderwaardig beschouwd worden. “Er bestaan nochtans wel plannen om ze ook als een service aan te bieden”, zegt Coopmans. “Ik geef u mijn echte data in een een soort highly encrypted omgeving en u geeft mij dan synthetische data terug, geanonimiseerd, die ik dan verder kan gebruiken in mijn tools zonder problemen met privacy en dergelijke.”
Augmented analytics
Wat volgens Gartner ook fel in opmars is: augmented analytics, een klasse van analytics die gebruikmaakt van AI en machine learning om meer mensen via natural language processing met analytics te laten werken. “Eenvoudig gesteld volgens Gartner: het brengt AI naar de traditionele BI”, legt Coopmans uit. “Het is een techniek die SAS al langer gebruikt om een analyse die uitmondt in een hoop cijfers te vertalen naar iets dat een mens kan begrijpen. Bijvoorbeeld: als de analyse zegt dat de kans op verloop van mijn klanten 63% is, wat ben ik daarmee, is dat hoog of laag? Maar als die analyse zegt: als je binnen de twee weken niets onderneemt, dan is je klant weg, dat is verstaanbare taal.”
Augmented analytics automatiseert zaken als datavoorbereiding, inzichten en verduidelijking. Het wil analytics niet alleen toegankelijker maken voor niet-experten maar ook doeltreffender voor de echte professionals. Tijdverslindende opdrachten worden daarbij geautomatiseerd zodat de eindgebruiker zich kan concentreren op de werkelijk waardevolle data. Je zou dan sneller een volledig en breder inzicht in een beter omschreven context krijgen.