Moet de data 100% perfect zijn voordat je iets kunt doen? Is data wel ooit perfect?
Hoe we omgaan met imperfectie bepaalt volledig welke waarde we met data kunnen creëren en of de tijd en moeite die we aan data besteden nuttige investeringen zijn of lapmiddelen die alleen maar geld en tijd kosten.
Mindset: wat kan wel i.p.v. wat kan niet
Het is zo makkelijk om te zeggen dat je niet veder kunt als iets niet beter is. Er is echter geen einde aan wat we kunnen wensen om het nog beter te krijgen. Ontwikkelingen beginnen altijd met imperfecte situaties waar je met imperfecte middelen, imperfecte inzichten toch wat beters kunt bereiken. De eerste gloeilamp lijkt helemaal niet op de gave LED lichten die we nu hebben en toch zijn we er gekomen.
Met iedere stap die je doet wordt het beter. Het is geen kwestie van wel of niet, het gaat om meer en beter.
Nauwkeurigheid
Een gevolg van imperfecties kan zijn dat sommige dingen niet kunnen, zelfs niet met fixes. Dat is jammer, maar soms de realiteit.
Het gevolg kan ook zijn dat door de imperfecties de nauwkeurigheid minder is. Dat is veel minder erg dan wanneer iets niet kan.
Nauwkeurigheid geef je vaak aan met een ondergrens en een bovengrens, mogelijk met een gemiddelde of mediaan. Hiermee krijg je toch een beeld.
Als ik vroeger van mijn projectmanager wilde weten hoe duur een project zou worden, dan wist hij dat nooit. Dan zei ik meer dan 1 Euro en minder dan 10 miljoen? Ja, waarschijnlijk meer dan 10.000 en minder dan 25.000 Euro. Na wat doorvragen, praten en analyseren kwamen we dan altijd tot een betere nauwkeurigheid, waar het verschil tussen de onder- en bovengrens een redelijke waarde had gekregen. Een bandbreedte kan dus ook al bruikbaar zijn.
Correcties en feedback
Sommige imperfecties zijn makkelijk of minder makkelijk te fixen door wat code te schrijven, etc. Dat is goed voor de snelheid, maar minder goed voor de duurzaamheid. Ga ervan uit dat imperfecte data, ook zonder jouw feedback, steeds perfecter wordt, zodat jouw fixes niet meer nodig zijn en zelfs problemen kunnen veroorzaken.
Fixes zijn altijd extra kosten in het maken en onderhouden en gaan in tegen het principe dat we allemaal zouden moeten hebben: pak problemen aan bij de bron. Zeker voor data is dat cruciaal.
Natuurlijk is dat in de praktijk vaak lastig. De eigenaar van brondata zit zeker niet te wachten op extra werk, want vaak is voor het doel waarvoor het in de bron wordt gebruikt wel voldoende goed. Dan komen er nog budget, mensen en een planning bij, dus erg snel zal dit meestal niet worden opgelost, maar dit is wel de meest duurzame manier.
Vaak wordt ook data gebruikt van een externe partij, bijvoorbeeld CBS, Kadaster, KNMI of een commerciële partij. Neem ALTIJD contact op met deze partijen als er imperfecties zijn in hun data. Ga ervan uit dat je niet de enige bent die er last van heeft, dus dat het voor hun ook een belangrijk signaal is en zij zullen ook zeker betere data willen leveren en dat kunnen ze alleen als ze weten wat er niet perfect is.
Don’ts
Mogelijk wat minder don’ts, maar mee aanbevelingen. Wees voorzichtig met een aantal dingen:
- Mis de imperfecties niet in jouw analyse. Weet dat ze er zijn, welke het zijn en hou er rekening mee, fix ze in jouw dataset. Op die manier kun je mogelijk toch nog veel;
- Over-analyseer de data niet als je imperfecties hebt. Juist bij imperfecties kun je soms vreemde (aka ‘interessante’) zaken zien en controleer of dat door imperfecties in jouw data veroorzaakt wordt. Zo ja, dan heb je mogelijk een analyse-grens bereikt;
- Blijf niet steken in de data, maar zoek wat er achter de data zit en kijk of je toch tot acties en aanbevelingen kan komen op basis van de data.
Wees een realistische optimist en kijk wat wel kan!