PBi_Gestructureerde data versus ongestructureerde data

GESTRUCTUREERDE DATA

Bij gestructureerde data kunt u denken aan gegevens die op een vaste manier met bijbehorende structuur worden opgeslagen. Het voordeel van deze wijze van werken is dat de informatie praktisch te vinden en gemakkelijk te verwerken is.

In de meeste bedrijven wordt van dit soort data gebruik gemaakt om informatie te ontginnen. Deze vorm van data ligt vaak opgeslagen in operationele databases, spreadsheets, etc.

Kolommen (velden) zijn voorgedefinieerd en de links (sleutels) tussen de velden zijn goed gedefinieerd. Met relatief weinig inspanning kunnen relaties worden gelegd en analysebestanden worden gevormd.

ONGESTRUCTUREERDE DATA

Aan de andere kant van het spectrum vinden we ongestructureerde data waarbij te denken valt aan data die gegenereerd worden zonder te voldoen aan vaste formaten in de veldstructuren.
Deze hoeveelheid is vele malen groter dan die van gestructureerde data.

Het is data die niet direct toepasbaar is in analyse.

Bijvoorbeeld: algemene velden, documenten, foto’s, films, presentaties, email, klachten, tweets etc.

Voor er een analyse kan worden gedaan moeten de afzonderlijke waarden of reeksen van woorden (n-grams) worden geconverteerd naar kolommen in een analysebestand.

Dit betekent dat tekstdata moeten worden genormaliseerd. Je moet hierbij denken aan het uniformiseren van hoofd- en kleine letters, stopwoorden

We weten dat er tegenwoordig OOK ENORME HOEVEELHEDEN DATA afkomstig is uit apparaten. Ook deze data is vaak ongestructureerd.