Als je machine learning in het bedrijf inzet, moet je wel opletten. Sommige technologiebedrijven stellen dat het meteen erg snel en nuttig is, maar dat is een onrealistische verwachting. Want in het echt zal ook het machine learning-proces fouten begaan. Deze fouten kunnen in het bedrijfsproces worden verwerkt (in elk geval tijdelijk) en het issue is dat deze fouten nu op schaal worden gemaakt. Vervolgens is er ook nog eens geen menselijke controle meer over.
"Gretigheid zonder secuur onderzoek kan problemen opleveren die zodanig zijn dat de voordelen die je hoopt te behalen met machine learning verliest", waarschuwt datawetenschapper Ray Johnson van SPR Consulting. Het detecteren van ML-fouten en het daarop reageren betekent dat je meer succes zult hebben en machine learning in de praktijk beter zal aansluiten op de verwachtingen. We gaan in op een zestal uitdagingen die fouten in de tools en processen in de hand werken, zodat we vooraf al hebben geleerd om ze te herkennen om te kunnen corrigeren.
1. Machine learning faalt door onbegrip over het bedrijfsprobleem
Sommige dataspecialisten die ML-modellen gebruiken hebben geen goed begrip over het bedrijfsprobleem dat machine learning probeert op te lossen en dat zorgt voor fouten. Daarom laat strategie- en analyticsdirecteur Akshay Tandon van LendingTree zijn team een probleemstelling formuleren wanneer ze een ML-tool gaan gebruiken. Daardoor wordt het probleem duidelijk wat je probeert op te lossen en welke modellen je bouwt om dat probleem op te lossen.
Wat statistiek betreft zijn de machine learning-tools die nu beschikbaar zijn erg krachtig, vertelt Tandon. Dat zorgt ervoor dat het nog belangrijker is om ze goed in te zetten, want een krachtige tool die verkeerd wordt ingezet leidt tot slechte beslissingen die ertoe doen. Als de data-analisten niet voorzichtig zijn, komen ze met modellen te zitten die niet passen bij de specifieke gegevens die worden gebruikt om iets te leren. Dat leidt tot een rap verval: resultaten kunnen snel van slecht tot erger gaan, waarschuwt hij.
Daarbij hebben veel zakelijke gebruikers niet in de gaten dat een model vanaf het moment dat het in productie wordt genomen een zeker kwaliteitsverlies doormaakt, merkt de analyticsdeskundige op. Net als met een auto of elke andere machine, moeten gebruikers het ML-model monitoren en onderhouden, en rekening houden met hoe beslissingen erdoor worden beïnvloed.
2. Lage datakwaliteit leidt tot ML-fouten
In de IT zeggen we vaak 'garbage in, garbage out'. Als de kwaliteit van de gegevens te laag is, lijdt machine learning daaronder. Slechte datakwaliteit is een van de grootste zorgen van databeheerders en het kan big data-analytics in gevaar brengen ondanks de beste bedoelingen van datawetenschappers en andere informatiespecialisten. En het kan zeker machine learning-modellen doen ontsporen.
Organisaties overschatten doorgaans de robuustheid van machine learning-algoritmes en onderschatten de effecten van slechte data. Een lage datakwaliteit produceert slechte resultaten en die leiden een organisatie op een pad waarop ze beslissingen nemen op basis van slechte informatie, zegt Johnson. Dat schaadt de bedrijfsprestaties en zorgt ervoor dat nieuwe initiatieven weinig steun krijgen.
Je kunt slechte datakwaliteit detecteren als machine learning-resultaten gewoonweg niet logisch klinken, gebaseerd op ervaringen. Een pro-actieve aanpak is het gebruik van Exploratory Data Anaysis (EDA) zegt Johnson. Daarmee vind je gebruikelijke issues als uitbijters, ontbrekende waardes en inconsequente bereikwaarden. Je kunt ook technieken als aselecte steekproeven gebruiken om te zien of verschillende datapunten overeenkomen met de distributie en om regels en policy's over datakwaliteit aan te scherpen.
3. Incorrect gebruik van machine learning
"Het probleem dat we nog steeds het vaakst zien bij bedrijven is de wens om machine learning in te zetten enkel en alleen omdat het in de mode is", zegt Sally Epstein, een gespecialiseerde machine learning-ontwikkelaar bij consultancy Cambridge Consultants. Maar het moet de juiste toepassing zijn van de tool om succes te hebben, zegt ze. Een traditionele ontwikkelaanpak leidt wellicht sneller tot een oplossing tegen aanzienlijk lagere kosten.
Het gebruik van machine learning is niet altijd de beste keuze om een probleem aan te pakken en het niet volledig begrijpen van de use case zorgt ervoor dat je het verkeerde probleem oplost, waarschuwt Johnson. Dat zorgt voor verlies van kansen omdat organisaties tijd en moeite steken in het passend maken van hun verkeerde model. Denk daarbij aan verspilde resources als personeel en infrastructuur die worden ingezet om een resultaat te behalen dat ook simpeler achterhaald had kunnen worden.
Om dit probleem te vermijden, moet je goed in de gaten houden wat het gewenste resultaat is voor het bedrijf, hoe complex het het probleem is, en wat het datavolume en de hoeveelheid attributen is. Relatief simpele problemen als classificatie, clustering en associatie met kleine hoeveelheden data met slechts enkele attributen kun je visueel of via statistische analyse oplossen, zegt de datawetenschapper. In die gevallen kan het meer tijd en resources kosten om machine learning uit te rollen dan nodig is.
Als een hoeveelheid data enorme proporties aanneemt, wordt machine learning al toepasselijker. Maar het is niet ongebruikelijk dat je machine learning probeert, om daarna te beseffen dat dit niet helder is gedefinieerd en het verkeerde probleem wordt opgelost.
4. Machine learning-modellen kunnen bevooroordeeld zijn
Met de slechte datakwaliteit die we net aanstipten bereik je conclusies die misleidend zijn. Niet alleen zorgt dat voor onnauwkeurigheden en ontbrekende gegevens, het kan ook leiden tot statistische onzuiverheid. Mensen zijn bevooroordeeld, dus het is niet meer dan logisch dat die vooroordelen vervolgens ook opduiken in modellen die door mensen zijn gemaakt.
Elk machine learning-algoritme reageert anders op klassen of distributies die niet in evenwicht zijn, zegt Epstein. Als deze verschillen niet worden bekeken, krijg je bijvoorbeeld een gezichtsherkenningstool die afwijkt bij variaties op huidskleur of sekse. Dat is zelfs al gebeurd met commercieel beschikbare diensten.
De nauwkeurigheid van een conclusie - of dat nu van een persoon of van een algoritme is - hangt af van de kwaliteit van de informatie die wordt verwerkt. De financiële, juridische en reputatie-risico's van onzuivere algortimes zijn volgens analytics-adviseur Vic Katyal van Deloitte een goed voorbeeld van waarom het gebruik van machine learning betekent dat ethiek ingebakken wordt in de organisatorische structuur.
Voorbeelden van bevooroordeelde algoritmes hebben we in de praktijk gezien in onderwijsprogramma's, kredietbeoordelingen, werving en zelfs in het strafrecht, zegt Katyal. Slecht verzamelde, gecureerde of toegepaste data kan vooroordelen introduceren in zelfs de best ontworpen machine learning-applicaties met de beste bedoelingen.
Machine learning-systemen die op deze manier delen van klanten of stakeholders benadelen houden oneerlijke praktijken in stand en dat is een van de grootste risico's van machine learning, meldde consultancy McKinsey & Company in 2017, omdat het doel van machine learning wordt ondergraven. Dat is een vaak over het hoofd geziene misser die kostbare fouten veroorzaakt, schrijft de consultancy, en als je daar geen rekening mee houdt kan het projecten en organisaties volledig doen ontsporen.
Door vooraf te kijken naar effectieve strategieën om deze problemen te bestrijden bespaar je je een hoop tijd en geld, stelt McKinsey en daardoor kun je het echte potentieel van machine learning benutten.
5. Onvoldoende resources om machine learning goed uit te kunnen voeren
Als je een machine learning-initiatief start, is het erg makkelijk om te onderschatten welke resources je aan personeel en infrastructuur nodig hebt. Er kunnen grote eisen zijn aan het IT-systeem, vooral als het gaat om het verwerken van beeld, video en audio. Zonder de benodigde verwerkingskracht is het lastig zo niet onmogelijk om op redelijke termijn machine learning te gebruiken, zegt Johnson. Daarnaast heb je issues over uitrol en inzet: wat heb je aan een machine learning-oplossing als de capaciteit ontbreekt zodat eindgebruikers het kunnen inzetten?
De benodigde schaalbare infrastructuur kan veel geld kosten en is mogelijk lastig te beheren. Maar er zijn een paar clouddiensten die schaalbare machine learning-platforms hebben die naar behoefte ingezet kunnen worden. De cloudaanpak zorgt ervoor dat je op schaal kunt experimenteren zonder vast te zitten aan hardware-investering, configuratie en uitrol, zegt Johnson. Sommige organisaties willen hun infrastructuur on-premises houden en als dat het geval is, kunnen clouddiensten een opstapje zijn om te leren wat precies is vereist. Op die manier weten organisaties wat er qua infrastructuur nodig is voordat je de grote investering doet.
Als het gaat om personeel kan het gebrek aan resources met kennis en vaardigheden - zoals datawetenschappers en machine learning-ontwikkelaars - ervoor zorgen dat de ontwikkeling en uitrol van machine learning in gevaar wordt gebracht. Het is van essentieel belang om resources te hebben die machine learning-concepten begrijpen, hoe ze worden toegepast en die kunnen interpreteren of de gewenste resultaten worden behaald.
Je kunt niet overschatten hoe belangrijk het is om kennis en vaardigheden in huis te hebben, aldus Johnson. Mensen met de juiste kennis kunnen issues met datakwaliteit identificeren, zorgvuldig gebruik en uitrol van tools regelen, en beleid ontwikkelen zodat de best practices worden toegepast.
6. Slechte planning en gebrek aan sturing laten machine learning mislukken
Machine learning-projecten beginnen met enthousiasme, maar verliezen daarna momentum en komen tot stilstand. Dat is een duidelijk gebrek aan planning en sturing. Machine learning-projecten kunnen oneindig doormodderen als duidelijke richtlijnen en grenzen niet zijn vastgesteld, waardoor potentieel veel wordt geïnvesteerd zonder voordelen te bereiken, waarschuwt de datawetenschapper van SPR Consulting.
Machine learning is een iteratief proces en aanpassingen in de modellen volgen als requirements veranderen, waardoor modellen opnieuw moeten worden ontwikkeld. Daardoor raken de mensen die zich met het project bezighouden gedemotiveerd en dat leidt tot slechte resultaten. Projectsponsoren gaan zich bezighouden met andere projecten en het machine learning-plan komt stil te liggen.
De projecten moeten daarom worden gemonitord om ervoor te zorgen dat ze doorlopen, zegt hij. Als de voortgang stokt, is het misschien tijd om even stil te staan om te kijken wat daar de oorzaak van is.