Datamining

Wat is datamining?

Als een organisatie over grote hoeveelheden data beschikt kan deze data door middel van datamining geanalyseerd worden. Datamining (gegevensdelving, datadelving) is het gericht zoeken naar (statistische) verbanden tussen verschillende (interne en/of externe) gegevensverzamelingen met als doel profielen op te stellen voor wetenschappelijk, journalistiek of commercieel gebruik. Data mining is in praktisch elke sector te gebruiken.

Toegevoegde waarde van datamining

Wat data mining uniek maakt ten opzichte van de standaard statistische analyses is dat data mining het mogelijk maakt om patronen en scenario’s te ontdekken in data. Dit is niet mogelijk met eenvoudige beschrijvende statistische analyses. De reden hiervoor is dat data mining wiskundige algoritmes gebruikt om data te segmenteren. Bij het segmenteren proberen de algoritmes groepen de vormen van eenheden die veel op elkaar lijken, terwijl het verschil tussen de groepen zo groot mogelijk wordt gehouden. Hierdoor kun je met data mining voorspellingen doen en de waarschijnlijkheid van gebeurtenissen inschatten.

Gevaren van datamining

Met datamining is het dus mogelijk om bruikbare gegevens uit een grote hoeveelheid aan data te filteren en deze voor wetenschappelijke, journalistieke of commerciële doeleinden te gebruiken. Het gevaar is dat bij grote databestanden al snel sprake is van correlatie maar dat dit verward wordt met causaliteit. Met andere woorden: men meent een nuttig verband gevonden te hebben, terwijl deze correlatie op toeval berust en er geen causaal verband bestaat.