Dataverrijking via web crawling

Web crawling

Eén van de manieren om meer inzicht te krijgen in klanten en bezoekers is door dataverrijking via webcrawling. Met web crawling wordt via een web crawler (ook wel spider genoemd) het wereldwijde web op een methodische en geautomatiseerde manier doorgebladerd. Bestaande klantdata wordt vervolgens verrijkt met relevante nieuwe data die via web crawling is verkregen. Web scraping is bijna hetzelfde als web crawling. Scrapen focust zich echter vooral op de omzetting van ongestructureerde data, meestal in HTML-formaat, naar gestructureerde data.

Webcrawling als beginpunt

Web crawling kan ook als beginpunt voor onderzoek dienen. Wanneer bijvoorbeeld een markt in kaart gebracht moet worden of wanneer een algemeen inzicht over een markt of branche gewenst is. De spiders komen op gezette tijden terug zodat er een onderzoeksmonitor ontwikkeld kan worden.     

Doel van webcrawling

Met dataverrijking via web crawling of web scraping kun je dus bestaande klantdata aanvullen met relevante nieuwe data zodat een uitgebreide dataset beschikbaar komt voor nadere analyse. Het uiteindelijke doel van de dataverrijking is het optimaliseren van producten en diensten op de wensen en behoeften van (potentiële) klanten. De data kunnen vanzelfsprekend ook worden gebruikt voor onderzoeksdoeleinden zoals beleidsonderzoek. Om de arbeidsmarkt van werkenden in de culturele sector in kaart te brengen heeft Bureau Lahaut bijvoorbeeld gebruik gemaakt van Jobfeed, een big data-tool voor de online vacaturemarkt.  

Actuele informatie

Websites zijn een belangrijke databronnen voor onderzoek. Websites bevatten namelijk allerlei informatie over wat een organisatie doet en welke producten en diensten er worden aangeboden. Websites zijn daarnaast een actuele bron van informatie omdat websites regelmatig worden bijgewerkt met de laatste ontwikkelingen.

Bureau Lahaut en web crawling

Voor een succesvolle dataverrijking via webcrawling heeft Bureau Lahaut alleen basisinformatie nodig zoals de URL’s van websites of telefoonnummers. Er kan ervoor gekozen worden om bestaande klantdata aan te vullen met slechts enkele nieuwe variabelen of juist een uitgebreide lijst aan nieuwe datavariabelen. Desgewenst neemt Bureau Lahaut het hele proces van webcrawling van u over: het verkrijgen van de data tot en met het analyseren en uitschrijven van de onderzoekresultaten.