Datamining

Wat is datamining?

Als een organisatie over grote hoeveelheden data beschikt kan deze data geanalyseerd worden. Datamining (gegevensdelving, datadelving) is het gericht zoeken naar statistische verbanden tussen verschillende gegevensverzamelingen met als doel profielen op te stellen voor wetenschappelijk, journalistiek of commercieel gebruik. Het is in praktisch elke sector te gebruiken.

Toegevoegde waarde

Wat deze onderzoekstechniek uniek maakt ten opzichte van de standaard statistische analyses is dat datamining het mogelijk maakt om patronen en scenario’s te ontdekken in data. Dit is niet mogelijk met eenvoudige beschrijvende statistische analyses. De reden hiervoor is dat datamining wiskundige algoritmes gebruikt om data te segmenteren.

Bij het segmenteren proberen de algoritmes groepen te vormen van eenheden die veel op elkaar lijken, terwijl het verschil tussen de groepen zo groot mogelijk wordt gehouden. Hierdoor kunnen wij voorspellingen doen en de waarschijnlijkheid van gebeurtenissen inschatten.

Gevaren

Met datamining is het dus mogelijk om bruikbare gegevens uit een grote hoeveelheid aan data te filteren en deze voor wetenschappelijke, journalistieke of commerciële doeleinden te gebruiken. Het gevaar is dat bij grote databestanden al snel sprake is van correlatie maar dat dit verward wordt met causaliteit. Met andere woorden: men meent een nuttig verband gevonden te hebben, terwijl deze correlatie op toeval berust en er geen causaal verband bestaat.