Ongestructureerde Data is niet wat je denkt dat het is!

Written by Ronald Baan

Ronald is een data-enthousiasteling die zijn tijd besteedt aan het delen van zijn passie voor data met anderen.

25 april 2022

Dit plaatje of iets met dezelfde boodschap kom je op allerlei plekken tegen. Het lijkt logisch, maar er ligt een wereld van misverstand en verkeerde aanpak aan ten grondslag.

1. De definitie van Unstructured Data is “No pre-defined data model”.
Niets is minder waar. Met unstructured data bedoelen ze documenten, video, social media, websites. Echter, documenten, zelfs die van 500 jaar oud, zijn nog steeds door ons te lezen en te begrijpen want … ze hebben een behoorlijk stabiele semantiek en taalmodel. Video staat in meerdere standaarden goed beschreven en daar zit metadata in. De API van Twitter geeft zeker wel een pre-defined datamodel.

2. De definitie van Structured Data is “Well-defined, easily organised data (in databases)”
Als dat zo is, dan zou ik geen werk meer hebben en zouden we de modellen die de datasets zouden moeten beschrijven al hebben, makkelijk kunnen uitwisselen. Easily organised, erg grappig, maar niet echt waarheid!

3. De hoeveelheden data stijgen exponentieel, maar vooral die van ‘unstructured data’. Toch blijft de focus maar op structured data. Iets om te overdenken.

4. Humor ligt echt voor het oprapen. Neem nu Informatica, een bekende op het gebied van datamanagement. In hun woorden: “Unstructured data is non-transactional business data, the format of which cannot, or does not, easily conform to a relational database schema. “. – https://lnkd.in/eeEWAQkG
– “non-transactional”? Volgens mij liggen heel veel transacties die voor organisaties van belang zijn vast in documenten, overeenkomsten, om maar 1 voorbeeld te noemen.
– “not, easily conform to a relational database schema”
Ah, dit is de kern. Het past niet in een database, dus eigenlijk weten we niet wat we ermee aan moeten en noemen we het maar unstructured.

Datamanagement waarbij de data in databases zit, is relatief makkelijk, maar dekt nog geen 20% van alle data. Laten we data in al haar vormen en facetten bekijken, beheren en gebruiken. Als het makkelijk is, dan is het minder leuk, toch? We kunnen dit!

In de #DAMA#DMBoK hebben we een kennisgebied over document- en contentmanagement. Daar kun je goede dingen vinden om te helpen met deze mooie vorm van data.

Ook #DAMA ziet de knelpunten met de term “unstructured data”. Op pagina 322 van #DMBoK2:
1.3.10 Unstructured Data
It is estimated that as much as 80% of all stored data is maintained outside of relational databases. This unstructured data does not have a data model that enables users to understand its content or how it is organized; it is not tagged or structured into rows and columns. The term unstructured is somewhat misleading, as there often is structure in documents, graphics, and other formats, for instance, chapters or headers. Some refer to data stored outside relational databases as non-tabular or semi-structured data. No single term adequately describes the vast volume and diverse format of electronic information that is created and stored in today’s world.

#DAMA#DMBoK#data#datamanagement

You may also like…

Layers of Knowledge (Graph)

Layers of Knowledge (Graph)

Je kunt de werkelijkheid ingewikkeld modelleren, je kunt het ook slim doen en dan zorgen dat systemen er ook makkelijk mee overweg kunnen.

Mooi artikel van Katariina Kari over de aanpak bij IKEA.

Data Lake House

Data Lake House

Voor het geval je aardig content bent met je data lake (of juist helemaal niet), het is tijd om de implementatie rond...